首页> 中国专利> 一种基于网页分类和聚类的网页信息自动抽取方法

一种基于网页分类和聚类的网页信息自动抽取方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及信息分析领域，提供了一种基于网页分类和聚类的网页信息自动抽取方法，主旨在于通过网页URL分类，大大降低聚类计算复杂度至0(N*k^2)，n表示类别个数，k表示平均每个类别的网页数量，提升网页信息自动抽取的性能。主要方案包括：步骤一：分类，将待抽取的网页分成N个类别；步骤二：聚类，对每个类别中的网页，进行相似网页聚类；步骤三：网页信息抽取，对于聚类后的每个类别，生成抽取模板抽取网页信息。

著录项

公开/公告号CN109726341A

专利类型发明专利
公开/公告日2019-05-07

原文格式PDF
申请/专利权人四川新网银行股份有限公司;
展开▼

申请/专利号CN201811629706.9
发明设计人张友书;陈思成;
展开▼

申请日2018-12-28
分类号
代理机构成都智言知识产权代理有限公司;
代理人李龙
地址 610094 四川省成都市成都高新区吉泰三路8号1栋1单元26楼1-8号
入库时间 2024-02-19 09:31:11

法律信息

法律状态公告日

法律状态信息

法律状态
2019-05-31

实质审查的生效 IPC(主分类):G06F16/955 申请日:20181228

实质审查的生效
2019-05-07

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于网页分类和聚类的网页信息自动抽取方法 [P] . 中国专利： CN109726341A . 2019-05-07
2. 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 [P] . 中国专利： CN109086361B . 2019.06.21
3. SYSTEM FOR CLASSIFICATION AND INDEXING WEB PAGES BASED ON THE OBJECT OF THE WEB PAGE INFORMATION, RELATIONSHIP OF THE OBJECT WITH THE RELATED DOWN STREAM PROCESSES, DOWNSTREAM PROCESS TYPE, DOWNSTREAM PROCESS OUTPUT AND OUTPUT SECTORS [P] . IN1999BO00708A . 2007-03-16

机译：基于网页信息对象，对象与相关向下流过程，向下流过程类型，向下流过程输出和输出切分的关系的网页分类和索引系统
4. INFORMATION RETRIEVAL SERVICE PROVIDING METHOD USING WEB PAGE CLASSIFIED INTO PLURAL INFORMATION BLOCKS [P] . 日本专利： JP2011146059A . 2011-07-28

机译：将网页分类为多个信息块的信息检索服务提供方法
5. method for updating information content of a web page; method for providing a network server with web page refresh information from the terminal; network server that maintains a web page; terminal to maintain a connection to the network server that maintains the network page; computer program product stored on a physically readable medium by the computer and executable on a data processing device to maintain the web page; and computer program product, stored on a computer-readable physical medium and executable on a data processing device, to provide a network server with information about updates made on the web page. [P] . BRPI0614202A2 . 2011-03-15

机译：一种更新网页信息内容的方法;向网络服务器提供来自终端的网页刷新信息的方法;维护网页的网络服务器;终端保持与维护网络页面的网络服务器的连接;计算机程序产品，该计算机程序产品由计算机存储在物理可读介质上，并且可以在数据处理设备上执行以维护网页;以及存储在计算机可读物理介质上并且可以在数据处理设备上执行的计算机程序产品，以向网络服务器提供关于在网页上进行的更新的信息。