基于XML用户定义需求的WEB信息提取研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着近些年互联网的飞速发展，Internet已经发展成为一个庞大的发布和共享信息资源的平台。但是如何从海量、无结构或半结构化的数据中快速、高效地获取用户所需的信息仍然是亟待解决的热点问题，因此WEB信息提取技术应运而生。目前学者们已经进行了大量的研究工作，但现有的技术仍然存在诸多不足之处:提取方法过于专业，不仅增加了用户语义理解的负担，而且不便于用户使用;在提取过程中难以及时获取用户的反馈，影响提取效果;提取内容越复杂，提取规则的健壮性越差。
　　基于此，本文在对XML及相关标准和现有基于XML提取方法深入研究的基础上，提出了一种基于XML用户自定义需求的WEB信息提取方法。研究工作包括为以下几方面内容:
　　(1)对待提取页面进行处理。HTML页面经过预处理过滤掉无关信息和代码，转换为格式规范的XML文档，为使用户清晰掌握页面结构，将XML文档解析生成可视化的DOM树形式，在节点转换的过程中，标记每个节点类型，并计算其路径表达式，为样本映射和生成提取规则做准备。
　　(2)实现用户的提取需求的获取。研究通过定义目标描述待提取数据节点间的层次关系，并且以此作为提取信息输出时的样式结构。用户标记的样本则作为提取规则的生成依据，样本按照映射规则以结构映射或内容映射的方式向目标结构映射，从而得到待提取数据的节点类型信息和位置信息。
　　(3)实现提取规则的构造。提取规则由一个或多个匹配目标结构每层节点的模板构成。模板根据目标结构根节点是否存在结构映射分别进行构造。根节点存在结构映射，利用样本结构映射的class属性匹配全文同类别节点，并利用相对路径覆盖父子关系和祖先后代关系，递归生成每层节点模板。根节点不存在结构映射，通过其子节点获取公共路径作为模板匹配的起点，由于该起点位置是唯一的，因此提取仅为样本数据。
　　最后通过对比实验，验证了本文提取方法的有效性，证明了该方法提取效果优于现有的两种方法。当提取内容结构复杂时，提取规则具有较好的健壮性。同时实现了该方法的原型系统，通过系统演示表明，用户不仅能够直观的观测到信息提取的整个过程，而且可以及时确定提取结果是否准确并能够方便地进行修改。

著录项

作者
王迎;
展开▼
作者单位

西南大学;

展开▼
授予单位西南大学;
学科计算机软件与理论
授予学位硕士
导师姓名余建桥;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
WEB技术; 信息提取; XML技术; 用户自定义; DOM树; 结构映射;

相似文献

中文文献
外文文献
专利

1. 基于XML的Web信息提取技术研究 [J] . 张宗平 ,李海雁 . 现代计算机（专业版） . 2007,第008期
2. 基于Java/XML的自定义Web报表模型研究 [J] . 徐玲1 ,李映雪1 ,吕遐东2 . 湖北科技学院学报 . 2018,第006期
3. 基于Java/XML的自定义Web报表模型研究 [J] . 徐玲 ,李映雪 ,吕遐东 . 湖北科技学院学报 . 2018,第006期
4. 基于Web评论的用户个人信息提取方法研究 [J] . 邱云飞 ,王雪 ,刘大有 . 计算机应用与软件 . 2012,第005期
5. 一种基于XML的Web地震信息提取的实现 [J] . 盖磊 ,王海军 ,刘俊民 . 计算机应用与软件 . 2007,第008期
6. 基于XML技术的Web信息提取和集成 [C] . 刘世杰 ,唐世渭 ,杨冬青 . 第二十届全国数据库学术会议 . 2003
7. 基于XML的半结构化Web信息提取的研究 [A] . 苟全登 . 2005

1. 一种基于XML的web信息提取方法 [P] . 中国专利： CN105550186A . 2016-05-04

2. 一种基于Web Service和以XML为资产定义的资产管理系统 [P] . 中国专利： CN101246564A . 2008-08-20

3. Web documents processing system based on XML and the application to be able to interpret web documents based on XML [P] . 外国专利： KR20030006952A . 2003-01-23

机译：基于XML的Web文档处理系统和能够解释基于XML的Web文档的应用程序

4. Internet (world wide web, "www") customized temporal scraping/sourcing service based on customer/entity defined criteria, retail or otherwise at regular temporal increments with push notifications. Applies to any physical or non-physical purchasable or free item on the www. Includes output/market demand data amp;/ reports to paying subscribers (i.e. Businesses). Patent for method of automated custom criteria web scraping method for back-end code, website feature, same function applications (iOS, Android), and related browser add-on services. [P] . 外国专利： AU2018100017A4 . 2018-02-08

机译：互联网（万维网，“ www”）基于客户/实体定义的标准，零售或以其他方式按规则的时间增量（带有推送通知）定制时间刮取/采购服务。适用于www上任何有形或无形的可购买或免费项目。包括对付费用户（即企业）的输出/市场需求数据和//报告。后端代码，网站功能，相同功能的应用程序（iOS，Android）以及相关浏览器附加服务的自动自定义标准网络抓取方法的方法的专利。

5. EVALUATION METHOD OF USER ABILITY BASED ON WEB-APPLICATION, MANAGEMENT METHOD OF USER ABILITY BASED ON WEB-APPLICATION AND EVALUATION SYSTEM OF USER ABILITY BASED ON WEB-APPLICATION [P] . 外国专利： KR20090106134A . 2009-10-08

机译：基于WEB应用的用户能力评价方法，基于WEB应用的用户能力管理方法和基于WEB应用的用户能力评价系统

相关主题

基于XML用户定义需求的WEB信息提取研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅