首页> 中文学位 >基于XML用户定义需求的WEB信息提取研究
【6h】

基于XML用户定义需求的WEB信息提取研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.2.3 目前研究成果的不足

1.3 研究主要内容和研究目标

1.4 文章的组织结构

第2章 WEB信息提取相关技术

2.1 XML及相关标准

2.1.1 XML

2.1.2 DOM

2.1.3 XSL

2.2 WEB信息提取技术概述

2.2.1 WEB信息提取与信息检索的区别

2.2.2 WEB信息提取的分类

2.2.3 WEB信息提取评价标准

2.3 本章小结

第3章 系统设计思路和获取待提取页面

3.1 研究概述

3.1.1 基本设计思想

3.1.2 WEB信息提取数据源

3.2 页面预处理

3.2.1 页面清洗

3.2.2 XHTML转换为XML

3.3 解析生成DOM树

3.3.1 标记节点类型

3.3.2 获取节点路径表达式

3.4 本章小结

第4章 获取用户需求和构造提取规则

4.1 定义目标结构

4.1.1 概念描述

4.1.2 构造目标结构

4.2 标记样本

4.2.1 内容映射

4.2.2 结构映射

4.2.3 样本数据映射规则

4.3 构造提取规则

4.3.1 根节点存在结构映射

4.3.2 根节点不存在结构映射

4.4 本章小结

第5章 实验与分析

5.1 实验设计

5.1.1 实验环境

5.1.2 实验数据源

5.1.3 实验内容

5.2 实验评估

5.2.1 简单规则提取

5.2.2 复杂规则提取

5.3 原型系统演示

5.4 本章小结

第6章 总结

6.1 工作总结

6.2 未来工作

参考文献

附录一

附录二

致谢

攻读学位期间所发表的学术论文

展开▼

摘要

随着近些年互联网的飞速发展,Internet已经发展成为一个庞大的发布和共享信息资源的平台。但是如何从海量、无结构或半结构化的数据中快速、高效地获取用户所需的信息仍然是亟待解决的热点问题,因此WEB信息提取技术应运而生。目前学者们已经进行了大量的研究工作,但现有的技术仍然存在诸多不足之处:提取方法过于专业,不仅增加了用户语义理解的负担,而且不便于用户使用;在提取过程中难以及时获取用户的反馈,影响提取效果;提取内容越复杂,提取规则的健壮性越差。
  基于此,本文在对XML及相关标准和现有基于XML提取方法深入研究的基础上,提出了一种基于XML用户自定义需求的WEB信息提取方法。研究工作包括为以下几方面内容:
  (1)对待提取页面进行处理。HTML页面经过预处理过滤掉无关信息和代码,转换为格式规范的XML文档,为使用户清晰掌握页面结构,将XML文档解析生成可视化的DOM树形式,在节点转换的过程中,标记每个节点类型,并计算其路径表达式,为样本映射和生成提取规则做准备。
  (2)实现用户的提取需求的获取。研究通过定义目标描述待提取数据节点间的层次关系,并且以此作为提取信息输出时的样式结构。用户标记的样本则作为提取规则的生成依据,样本按照映射规则以结构映射或内容映射的方式向目标结构映射,从而得到待提取数据的节点类型信息和位置信息。
  (3)实现提取规则的构造。提取规则由一个或多个匹配目标结构每层节点的模板构成。模板根据目标结构根节点是否存在结构映射分别进行构造。根节点存在结构映射,利用样本结构映射的class属性匹配全文同类别节点,并利用相对路径覆盖父子关系和祖先后代关系,递归生成每层节点模板。根节点不存在结构映射,通过其子节点获取公共路径作为模板匹配的起点,由于该起点位置是唯一的,因此提取仅为样本数据。
  最后通过对比实验,验证了本文提取方法的有效性,证明了该方法提取效果优于现有的两种方法。当提取内容结构复杂时,提取规则具有较好的健壮性。同时实现了该方法的原型系统,通过系统演示表明,用户不仅能够直观的观测到信息提取的整个过程,而且可以及时确定提取结果是否准确并能够方便地进行修改。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号