首页> 中国专利> 基于HTML特征的文本内容提取方法

基于HTML特征的文本内容提取方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及一种基于HTML特征的文本内容提取方法，该方法实现的步骤包括：1)使用标签把输入的HTML网页进行分解成多个模块；2)如果1)中分解的模块还能继续再分解而且没有出现Table或Div标签混杂的情况，那么再把它送到步骤1)继续分解；3)把输入的模块根据在布局中的不同位置给与不同位置得分；4)计算每个模块的链接文字长度和每个模块超链接内文本的长度；5)根据公式：综合得分＝位置得分×文字长度/链接文字长度得出每个模块得综合得分。与现有技术相比，提高了网页布局的解析效率；提高了文本聚类和文本分类、自动摘要的准确性。

著录项

公开/公告号CN101093487A

专利类型发明专利
公开/公告日2007-12-26

原文格式PDF
申请/专利权人上海新纳广告传媒有限公司;
展开▼

申请/专利号CN200610028064.8
发明设计人金骏;胡创义;
展开▼

申请日2006-06-22
分类号G06F17/30;
代理机构上海科盛知识产权代理有限公司;
代理人赵志远
地址 200050 上海市长宁路1027号42F
入库时间 2023-12-17 19:32:51

法律信息

法律状态公告日

法律状态信息

法律状态
2010-03-17

发明专利申请公布后的视为撤回

发明专利申请公布后的视为撤回
2007-12-26

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于HTML特征的文本内容提取方法 [P] . 中国专利： CN101093487A . 2007-12-26
2. 一种基于文本内容特征的文本图构建方法 [P] . 中国专利： CN111639189A . 2020-09-08
3. METHOD, SYSTEM AND COMPUTER-READABLE RECORDING MEDIUM FOR EXTRACTING TEXT BASED ON CHARACTERISTIC OF WEB PAGE [P] . 韩国专利： KR100958934B1 . 2010-05-19

机译：基于网页特征的文本提取方法，系统及计算机可读记录介质
4. METHOD, SYSTEM AND COMPUTER-READABLE RECORDING MEDIUM FOR EXTRACTING TEXT BASED ON CHARACTERISTIC OF WEB PAGE [P] . 韩国专利： KR20090052757A . 2009-05-26

机译：基于网页特征的文本提取方法，系统及计算机可读记录介质
5. METHOD FOR EXTRACTING IMAGE FEATURES AND CONTENT-BASED IMAGE SEARCHING METHOD USING THE EXTRACTING METHOD [P] . 韩国专利： KR100811834B1 . 2008-03-10

机译：图像特征提取方法及基于该方法的基于内容的图像搜索方法