首页> 中文学位 >基于视觉信息和DOM树的Deep Web数据自动抽取
【6h】

基于视觉信息和DOM树的Deep Web数据自动抽取

代理获取

目录

封面

声明

中文摘要

目录

目录

1 引言

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文主要研究问题

1.4 本文章节安排

2 相关技术介绍

2.1 HTML 和 DOM

2.2 解析 HTML 的工具

2.3 手工抽取方法

2.4 网页的视觉特征

2.5 小结

3 基于视觉信息和 DOM 树的数据抽取

3.1 问题描述

3.2 定位数据区域

3.3 抽取数据记录

3.4 对齐数据项

3.5 实验结果与分析

3.6 小结

4 系统集成及其它问题

4.1 系统集成

4.2 系统设计中的其它问题

4.3 小结

5 总结和展望

5.1 总结

5.2 展望

参考文献

致谢

个人简历

已发表的学术论文

研究项目

展开▼

摘要

随着互联网的飞速发展,其中已蕴含了海量的信息资源,涵盖了现实世界的各个领域。相对于Surface Web,Deep Web蕴含着更丰富的数据、拥有更多的访问量和更快的增长速度。但是Deep Web页面是动态生成的,难以被传统搜索引擎索引到。因此,如何有效地获取和利用 Deep Web页面的数据成为一个重要的研究方向。Deep Web数据通过查询结果页面表现出来,但是网页中的数据形式各异、缺乏结构性,便于用户浏览却难以利用。本文基于网页的视觉信息和 DOM树结构,对 Deep Web查询结果页面的数据自动抽取进行了研究,主要研究内容如下:
  (1)定位数据区域。首先通过分析 Deep Web查询结果页面中数据区域的特点,找到能够使之定位的视觉特征。然后收集了相关页面作为样本,并对样本中的节点进行手工标注。通过 Weka训练得到相应的决策树,最后使用该决策树对应的规则来定位数据区域。
  (2)抽取数据记录。这个过程分为两步:定位数据记录和去噪。第一步,根据网页中数据记录的 DOM树的结构特点及其视觉特征,提出了数据记录定位算法,但是由此得到的节点中不仅包含了数据记录节点,还有少量的噪音;第二步,通过 xpath定义了数据记录的相似度,并通过相似度比较进行去噪,从而得到数据记录节点。
  (3)对齐数据项。首先将数据记录划分成相应的数据项,然后为便于对齐设计了相应的数据结构,并基于 xpath给出了对齐数据项的算法。
  (4)模板。针对数据区域、数据记录以及数据项各自的特点,提出了相应的模板。通过模板的使用,不仅在抽取过程中避免了大量重复的计算,提高了抽取速度,而且方便实现连续页面的数据项抽取。
  论文的创新点如下:(1)引入了 xpath的概念,通过 xpath定义了数据记录的相似度,从而进行数据记录的去噪。并通过 xpath的比较完成了数据项的对齐。(2)提出了数据项粒度的概念,并给出了将数据记录划分为数据项的相应方法。
  在以上研究的基础上,设计开发了 Deep Web查询结果页面的数据自动抽取系统,并且解决了抽取过程中遇到的其他问题。如 AJAX异步数据的抽取等。实验表明,本文方法可以快速、准确地从 Deep Web查询结果页面中抽取数据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号