首页> 中国专利> 基于统计规则的族群网页正文提取方法及系统

基于统计规则的族群网页正文提取方法及系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提供了一种基于统计规则的族群网页正文提取方法及系统，以网页族群的形式获取一组待处理网页，得到网页族群列表；遍历网页族群列表，提取每个网页的原始HTML代码，形成HTML代码列表；遍历HTML代码列表，提取每个网页中的所有文本内容，根据HTML结构，将全部网页的各长文本转化为短文本字符串列表，并保留文本顺序；其中，各短文本字符串列表均属于整个网页族群的文本列表集合；遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置；选取从起始位置到结束位置的文本，输出正文文本列表；本发明无需人工参与，无需特殊规则，能够提取不同形式的网页文本，极大的提高了提取精度和提取效率。

著录项

公开/公告号CN115510307A

专利类型发明专利
公开/公告日2022-12-23

原文格式PDF
申请/专利权人山东亿云信息技术有限公司;
展开▼

申请/专利号CN202211200790.9
发明设计人陈通;展一鸣;李晓;王瑞霜;杨春;纪丽萍;
展开▼

申请日2022-09-29
分类号G06F16/9532;G06F16/33;G06F16/958;
代理机构济南圣达知识产权代理有限公司;
代理人祖之强
地址 250014 山东省济南市高新区新泺大街2008号银荷大厦B座4层
入库时间 2023-06-19 18:04:57

法律信息

法律状态公告日

法律状态信息

法律状态
2022-12-23

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 基于统计回溯定位的网页正文提取方法和装置 [P] . 中国专利： CN102314520A . 2012-01-11
2. 一种基于正文节点特征的提取网页正文的方法和系统 [P] . 中国专利： CN110851679A . 2020-02-28
3. Method and apparatus for extracting body on web page [P] . 美国专利： US9678932B2 . 2017-06-13

机译：在网页上提取正文的方法和装置
4. Method, Server and Device for extracting a Body and a title of a Content of a Web page. [P] . AR097694A1 . 2016-04-06

机译：提取网页内容的正文和标题的方法，服务器和设备。
5. Method and apparatus for extracting body on web page [P] . 欧洲知识产权局专利： EP2639717A3 . 2015-05-13

机译：在网页上提取正文的方法和装置