首页> 中国专利> 面向聚焦的Web网页获取和信息抽取方法

面向聚焦的Web网页获取和信息抽取方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及面向聚焦的Web网页获取和信息抽取方法，其包括以下步骤：1.创建一个基于URL结构过滤的非监督的聚焦爬虫。2.在新闻领域可以采取基于视觉单位的Web网页信息抽取技术，根据视觉特征和文本特征自顶向下寻找DOM树的最小视觉单位，获得多个视觉单位后，通过分析目标信息区别于非目标信息的特征检测找出目标信息所在的视觉块。3.利用基于增量聚类的非模型Web网页信息抽取方法以获得较好的适应性。本发明基于URL结构过滤的非监督聚焦爬虫相较于基于内容的聚焦爬虫，可以达到更高的收获率和执行效率，该方法克服了传统网页信息抽取中针对不同的网站制作不同的包装器的缺点，提高了抽取方法的适应能力。

著录项

公开/公告号CN106970938A

专利类型发明专利
公开/公告日2017-07-21

原文格式PDF
申请/专利权人上海大学;
展开▼

申请/专利号CN201710076819.X
发明设计人朱文浩;金鑫;姚滕俊;陈洁;胡冠男;
展开▼

申请日2017-02-13
分类号G06F17/30(20060101);G06K9/62(20060101);
代理机构上海上大专利事务所(普通合伙);
代理人陆聪明
地址 200444 上海市宝山区上大路99号
入库时间 2023-06-19 02:52:30

法律信息

法律状态公告日

法律状态信息

法律状态
2017-08-15

实质审查的生效 IPC(主分类):G06F17/30 申请日:20170213

实质审查的生效
2017-07-21

公开

公开

相似文献

专利
中文文献
外文文献

1. 面向聚焦的Web网页获取和信息抽取方法 [P] . 中国专利： CN106970938A . 2017-07-21
2. 一种面向关系抽取的句子结构信息获取方法 [P] . 中国专利： CN111126039A . 2020-05-08
3. IMAGING APPARATUS, FOCUSING INFORMATION ACQUISITION DEVICE, FOCUSING DEVICE, IMAGING METHOD, FOCUSING INFORMATION ACQUISITION METHOD, AND FOCUSING METHOD [P] . 日本专利： JP2009069704A . 2009-04-02

机译：成像设备，聚焦信息获取设备，聚焦设备，成像方法，聚焦信息获取方法和聚焦方法
4. Imaging device, focusing information acquisition device, imaging method and focusing information acquisition method [P] . 日本专利： JP4954834B2 . 2012-06-20

机译：成像装置，聚焦信息获取装置，成像方法和聚焦信息获取方法
5. Apparatus for acquiring focussing information and method of acquiring focusing information [P] . 美国专利： US7421195B2 . 2008-09-02

机译：获取聚焦信息的装置和获取聚焦信息的方法