基于视觉信息和DOM树的Deep Web数据自动抽取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的飞速发展,其中已蕴含了海量的信息资源,涵盖了现实世界的各个领域。相对于Surface Web,Deep Web蕴含着更丰富的数据、拥有更多的访问量和更快的增长速度。但是Deep Web页面是动态生成的,难以被传统搜索引擎索引到。因此,如何有效地获取和利用 Deep Web页面的数据成为一个重要的研究方向。Deep Web数据通过查询结果页面表现出来,但是网页中的数据形式各异、缺乏结构性,便于用户浏览却难以利用。本文基于网页的视觉信息和 DOM树结构,对 Deep Web查询结果页面的数据自动抽取进行了研究,主要研究内容如下:
　　(1)定位数据区域。首先通过分析 Deep Web查询结果页面中数据区域的特点,找到能够使之定位的视觉特征。然后收集了相关页面作为样本,并对样本中的节点进行手工标注。通过 Weka训练得到相应的决策树,最后使用该决策树对应的规则来定位数据区域。
　　(2)抽取数据记录。这个过程分为两步:定位数据记录和去噪。第一步,根据网页中数据记录的 DOM树的结构特点及其视觉特征,提出了数据记录定位算法,但是由此得到的节点中不仅包含了数据记录节点,还有少量的噪音;第二步,通过 xpath定义了数据记录的相似度,并通过相似度比较进行去噪,从而得到数据记录节点。
　　(3)对齐数据项。首先将数据记录划分成相应的数据项,然后为便于对齐设计了相应的数据结构,并基于 xpath给出了对齐数据项的算法。
　　(4)模板。针对数据区域、数据记录以及数据项各自的特点,提出了相应的模板。通过模板的使用,不仅在抽取过程中避免了大量重复的计算,提高了抽取速度,而且方便实现连续页面的数据项抽取。
　　论文的创新点如下:(1)引入了 xpath的概念,通过 xpath定义了数据记录的相似度,从而进行数据记录的去噪。并通过 xpath的比较完成了数据项的对齐。(2)提出了数据项粒度的概念,并给出了将数据记录划分为数据项的相应方法。
　　在以上研究的基础上,设计开发了 Deep Web查询结果页面的数据自动抽取系统,并且解决了抽取过程中遇到的其他问题。如 AJAX异步数据的抽取等。实验表明,本文方法可以快速、准确地从 Deep Web查询结果页面中抽取数据。

著录项

作者
邹晓明;
展开▼
作者单位

中国海洋大学;

展开▼
授予单位中国海洋大学;
学科计算机系统结构
授予学位硕士
导师姓名张巍;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
Deep Web页面; 视觉信息; DOM树; 数据抽取; 互联网平台;

相似文献

中文文献
外文文献
专利

1. 一种基于扩展DOM树的Web数据自动抽取方法 [J] . 陈远斌 . 应用科技 . 2009,第008期
2. 面向Deep Web数据自动抽取的模板生成方法 [J] . 杨晓琴 ,鞠时光 ,曹庆皇 . 计算机应用研究 . 2010,第001期
3. 基于DOM树和视觉特征的网页信息自动抽取 [J] . 黄武冠 ,朱明 ,尹文科 . 计算机工程 . 2013,第010期
4. D-EEM:一种基于DOM树的Deep Web实体抽取机制 [J] . 寇月 ,李冬 ,申德荣 . 计算机研究与发展 . 2010,第005期
5. 一种基于树结构的Web数据自动抽取方法 [J] . 胡东东 ,孟小峰 . 计算机研究与发展 . 2004,第010期
6. 基于DOM树的半指导科技文献元数据自动抽取 [C] . 封盛 ,张铭 . 第二十四届中国数据库学术会议 . 2007
7. 基于视觉信息与DOM树的Deep Web数据获取方法研究 [A] . 李学环 . 2014

基于视觉信息和DOM树的Deep Web数据自动抽取

目录

摘要

著录项

相似文献

相关主题

期刊订阅