首页> 中国专利> 一种网页中非正文文本的识别系统及方法

一种网页中非正文文本的识别系统及方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种网页中非正文文本的识别系统及方法，涉及正文抽取领域。所述系统包括：网页抓取器适于抓取目标网站的所有网页的数据；DOM树构建单元，适于构建目标网站的每个网页对应的DOM树；DOM树分析单元，适于根据DOM树找出网页中的单元文本段；文本统计单元，适于统计单元文本段在目标网站的所有网页中的出现次数；文本识别单元，适于在所述出现次数大于预定阈值时，将所述单元文本段识别为非正文文本。所述系统及方法，克服了现有方法对于非正文文本识别的滞后问题，并且具有较高的识别准确度。

著录项

公开/公告号CN102779172B

专利类型发明专利
公开/公告日2016-06-01

原文格式PDF
申请/专利权人北京奇虎科技有限公司;奇智软件(北京)有限公司;
展开▼

申请/专利号CN201210214385.2
发明设计人王志刚;
展开▼

申请日2012-06-25
分类号
代理机构北京路浩知识产权代理有限公司;
代理人王莹
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)
入库时间 2022-08-23 09:40:30

法律信息

法律状态公告日

法律状态信息

法律状态
2016-06-01

授权

授权
2013-01-09

实质审查的生效 IPC(主分类):G06F 17/30 申请日:20120625

实质审查的生效
2012-11-14

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种网页中非正文文本的识别系统及方法 [P] . 中国专利： CN102779172B . 2016.06.01
2. 基于文本标签特征挖掘的网页正文提取方法 [P] . 中国专利： CN106339455B . 2019.06.04
3. System and method for recognizing non-body text in webpage [P] . 美国专利： US10042827B2 . 2018-08-07

机译：网页中非正文文本的识别系统及方法
4. System and method for recognizing non-body text in webpage [P] . 美国专利： US2015205769A1 . 2015-07-23

机译：网页中非正文文本的识别系统及方法
5. RECOGNITION SYSTEM AND RECOGNITION METHOD OF NON-BODY TEXT IN WEBPAGE [P] . 世界知识产权组织专利： WO2014000571A1 . 2014-01-03

机译：网页中非正文的识别系统及识别方法