首页> 中文学位 >基于视觉信息和树匹配的Deep Web数据抽取问题研究
【6h】

基于视觉信息和树匹配的Deep Web数据抽取问题研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 Deep Web数据抽取面临的主要问题

1.3 研究内容及贡献

1.3.1 研究内容

1.3.2 本文贡献

1.4 论文组织结构

第2章 Deep Web数据抽取相关研究和技术

2.1 引言

2.2 Deep Web数据抽取方法分类

2.2.1 手工实现的抽取方法

2.2.2 半自动的抽取方法

2.2.3 全自动的抽取方法

2.3 Web相关技术

2.4 视觉块树

2.5 本章小结

第3章 基于序列划分策略的列表页面数据记录抽取

3.1 引言

3.2 挖掘数据区域

3.3 数据记录的抽取

3.3.1 视觉块相似性度量

3.3.2 数据区域树下的子树聚类

3.3.3 确定数据记录

3.4 实验

3.4.1 数据集

3.4.2 实验环境

3.4.3 评价标准

3.4.4 实验结果及分析

3.5 小结

第4章 基于树匹配算法的数据项对齐

4.1 引言

4.2 数据记录预处理

4.3 树匹配算法

4.3.1 筒单树匹配

4.3.2 多重对齐

4.4 实验

4.5 小结

第5章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻渎学位期间发表的学术论文目录

展开▼

摘要

随着网络技术的快速发展和普及,Web已经成为一个巨大的信息源集合,拥有着海量信息。Deep Web是由Web中可在线访问的数据库构成,具有信息量大、结构化程度高、领域覆盖全面等特点,Deep Web对以分析挖掘为目标的应用系统有着十分重大的应用价值。随着电子商务、市场情报等应用需求的增长,如何从Deep Web中获取用户感兴趣的信息或数据,以便进行深度的分析从而提供更具价值的服务和应用,比如比价系统、元搜索等,已成为目前研究的热点课题。为了有效利用Deep Web,Deep Web数据集成应运而生,包括数据获取、数据抽取和数据整合等环节,其中Deep Web数据抽取是其关键环节。
  由于Deep Web的海量、异构等特点使得Deep Web数据抽取成为一项极具挑战的工作,其主要困难有:(1)Deep Web涉及领域广,数据量大,要实现Deep Web数据的自动抽取。(2)不同Deep Web页面差距较大,抽取方法要有一定的适应性,确保其抽取的正确率和效率。
  本文针对Deep Web中包含半结构化数据的列表页面,利用页面的视觉信息和树匹配技术,实现了此类Web页面中数据的全自动抽取,其主要贡献和创新有以下两点:
  (1)列表页面中数据记录的识别和抽取
  Web页面的设计是为了方便用户浏览,有着丰富的视觉信息,比如字体、布局、背景等。为了方便利用页面的视觉信息,我们给出了页面的表示模型——视觉块树,相较于VIPS等页面分块技术,这里没有使用任何假设和启发式规则,更能客观的反应页面信息。
  为了抽取数据记录,我们首先识别出数据区域,这里结合列表页面的视觉特征,给出了数据区域识别算法,相较于传统方法,此算法有较强的适应性。对于数据区域下数据记录的识别,本文采用一种序列划分的策略,其基本思想是先对数据区域树下子树聚类,根据聚类的结果信息对子树序列进行划分,过滤掉噪声节点从而确定每条数据记录的边界,最终实现数据区域下数据记录的抽取工作。
  (2)基于树匹配技术实现数据项对齐
  数据项对齐是指将由同一模板生成的数据记录中相同语义项放在关系表的同一列下,即为数据记录生成关系模式。本文将每条数据记录看为一棵树,从而把数据记录模式生成看为多序列对齐问题。首先给出了树匹配的一种严格模式;然后采用简单树匹配(Simple Tree Matching,简称STM)算法得到两棵树的一个最大匹配,由于采用了视觉块树这种数据结构,能对STM进行一些剪枝操作,可使算法复杂度由O(n2)几乎降为线性;最后基于STM给出了模式生成算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号