首页> 中国专利> 一种面向词典集的复杂从属结构网页信息抽取方法及系统

一种面向词典集的复杂从属结构网页信息抽取方法及系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种面向词典集的复杂从属结构网页信息抽取方法：根据页面标识判断页面是否完整并返回目标完整html页面；根据语义相关性将预设语种主标题挂接至定义的规则表示词典集中对应的规则表示中，生成全表示词典集；从复杂从属结构页面下提取全文本内容并最终形成目标文本内容，并用规则表示词典集中的规则表示替换全表示词典集分割目标文本内容得到包含每个规则表示子集的全分割复杂从属文本集；合并全分割复杂从属文本集中相同规则表示的子集内容并将其作为每个规则表示的全内容；基于新发布页面重新抽取主标题内容动态扩充全表示词典集。本发明解决了传统的网页的信息解析方法中不同站点之间内容主题相同但页面结构不统一而导致的解析困难的问题。

著录项

公开/公告号CN108416048A

专利类型发明专利
公开/公告日2018-08-17

原文格式PDF
申请/专利权人安徽大学;
展开▼

申请/专利号CN201810220100.3
发明设计人赵姝;刘洋;陈洁;段震;陈喜;张燕平;
展开▼

申请日2018-03-16
分类号
代理机构合肥市长远专利代理事务所(普通合伙);
代理人段晓微
地址 230000 安徽省合肥市肥西路3号
入库时间 2023-06-19 06:13:14

法律信息

法律状态公告日

法律状态信息

法律状态
2018-09-11

实质审查的生效 IPC(主分类):G06F17/30 申请日:20180316

实质审查的生效
2018-08-17

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种面向词典集的复杂从属结构网页信息抽取方法及系统 [P] . 中国专利： CN108416048B . 2021.09.21
2. 一种面向词典集的复杂从属结构网页信息抽取方法及系统 [P] . 中国专利： CN108416048A . 2018-08-17
3. method for updating information content of a web page; method for providing a network server with web page refresh information from the terminal; network server that maintains a web page; terminal to maintain a connection to the network server that maintains the network page; computer program product stored on a physically readable medium by the computer and executable on a data processing device to maintain the web page; and computer program product, stored on a computer-readable physical medium and executable on a data processing device, to provide a network server with information about updates made on the web page. [P] . BRPI0614202A2 . 2011-03-15

机译：一种更新网页信息内容的方法;向网络服务器提供来自终端的网页刷新信息的方法;维护网页的网络服务器;终端保持与维护网络页面的网络服务器的连接;计算机程序产品，该计算机程序产品由计算机存储在物理可读介质上，并且可以在数据处理设备上执行以维护网页;以及存储在计算机可读物理介质上并且可以在数据处理设备上执行的计算机程序产品，以向网络服务器提供关于在网页上进行的更新的信息。
4. DICTIONARY INFORMATION DISPLAY DEVICE, DICTIONARY INFORMATION DISPLAY METHOD, DICTIONARY INFORMATION DISPLAY PROGRAM, DICTIONARY INFORMATION DISPLAY SYSTEM AND SERVER DEVICE AND TERMINAL DEVICE THEREOF [P] . 日本专利： JP2014149604A . 2014-08-21

机译：词典信息显示设备，词典信息显示方法，词典信息显示程序，词典信息显示系统以及服务器设备和终端设备
5. DICTIONARY INFORMATION DISPLAY DEVICE, DICTIONARY INFORMATION DISPLAY SYSTEM, RETRIEVAL DEVICE, DICTIONARY INFORMATION DISPLAY METHOD, AND PROGRAM THEREOF [P] . 日本专利： JP2010009399A . 2010-01-14

机译：词典信息显示设备，词典信息显示系统，检索装置，词典信息显示方法及其程序