首页> 中国专利> 一种基于文本-标签密度的网页核心内容提取方法

一种基于文本-标签密度的网页核心内容提取方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及一种基于文本‑标签密度的网页核心内容提取方法，其包括：网页源代码预处理、网页核心内容范围预估、核心内容边界确定和删除剩余标签四个阶段。网页源代码预处理阶段从原始网页文本中提取标题、摘要、描述等核心要素，并删除原始网页文本中与网页核心内容无关的标签，从而得到待处理文本；网页核心内容范围预估阶段，确定网页核心内容的大致范围；核心内容边界确定阶段分别确定网页正文核心内容精确的起止位置；删除剩余标签阶段取出核心内容部分，并删除多余标签，获得便于分析处理的网页核心内容。本发明无需解析网页文档的DOM结构，也不限定网页的主题和内容，处理过程具有线性复杂度，能够适用于各种网页核心内容提取、网页去噪等技术应用。

著录项

公开/公告号CN106055667B

专利类型发明专利
公开/公告日2019-06-04

原文格式PDF
申请/专利权人北京林业大学;
展开▼

申请/专利号CN201610390441.6
发明设计人蒋东辰;闫艺鑫;
展开▼

申请日2016-06-06
分类号G06F16/958(20190101);
代理机构11251 北京科迪生专利代理有限责任公司;
代理人成金玉;卢纪
地址 100083 北京市海淀区清华东路35号
入库时间 2022-08-23 10:33:53

法律信息

法律状态公告日

法律状态信息

法律状态
2019-06-04

授权

授权
2016-11-23

实质审查的生效 IPC(主分类):G06F17/30 申请日:20160606

实质审查的生效
2016-11-23

实质审查的生效 IPC(主分类):G06F 17/30 申请日:20160606

实质审查的生效
2016-10-26

公开

公开
2016-10-26

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于文本-标签密度的网页核心内容提取方法 [P] . 中国专利： CN106055667B . 2019.06.04
2. 一种基于文本‑标签密度的网页核心内容提取方法 [P] . 中国专利： CN106055667A . 2016-10-26
3. Method for internationalization of hypertext documents in which the hypertext tags are localized or translated using a localization tool together with a translation file to make conversion of Web pages between languages easier [P] . 法国专利： FR2809509A1 . 2001-11-30

机译：一种超文本文档的国际化方法，其中使用本地化工具与翻译文件一起对超文本标签进行本地化或翻译，以使网页在语言之间的转换更加容易
4. METHOD, SYSTEM AND COMPUTER-READABLE RECORDING MEDIUM FOR EXTRACTING TEXT BASED ON CHARACTERISTIC OF WEB PAGE [P] . 韩国专利： KR100958934B1 . 2010-05-19

机译：基于网页特征的文本提取方法，系统及计算机可读记录介质
5. METHOD, SYSTEM AND COMPUTER-READABLE RECORDING MEDIUM FOR EXTRACTING TEXT BASED ON CHARACTERISTIC OF WEB PAGE [P] . 韩国专利： KR20090052757A . 2009-05-26

机译：基于网页特征的文本提取方法，系统及计算机可读记录介质