首页> 中文学位 >基于视觉信息与DOM树的Deep Web数据获取方法研究
【6h】

基于视觉信息与DOM树的Deep Web数据获取方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引言

1.1 研究背景及意义

1.2 Deep Web研究现状

1.3 困难与挑战

1.4 研究内容

1.5 论文结构与安排

第二章 Deep Web数据获取技术概述

2.1 数据集成框架概述

2.2 Deep Web数据提取研究概述

2.3 信息抽取方法与典型系统介绍

2.4 Web信息抽取主要相关技术

2.5 Web信息抽取系统的评价标准

2.6 本章小结

第三章 Deep Web数据提取方法

3.1 难点分析

3.2 问题定义

3.3 多属性接口数据提取

3.4 文本域关键词选择策略

3.5 实验结果及分析

3.6 本章小结

第四章 结果页数据记录抽取

4.1 难点分析

4.2 相关定义

4.3 页面视觉信息

4.4 列表数据区域挖掘

4.5数据记录抽取

4.6 基于DOM标签路径构建包装器

4.7 实验数据集及结果分析

4.8 本章小结

第五章 原型系统设计

5.1 系统基本架构与流程

5.2 核心模块详细设计

5.3 本章小结

第六章 总结与展望

6.1 本文总结

6.2 工作展望

参考文献

攻读学位期间公开发表的论文及参与科研项目

致谢

展开▼

摘要

近年来,随着互联网信息的迅速膨胀,数据的商业价值不断地被挖掘出来,以提供增值服务,例如评论分析、元搜索、比较购物、大数据应用等,这些都是建立在Deep Web数据获取与数据集成基础之上。随着越来越多与领域相关且具有高质量信息的后台数据库的涌现,Deep Web数据获取与集成依然是个比较热门的研究方向。
  本研究主要内容包括:⑴考虑到Deep Web查询接口具有多属性以及存在top-k问题,首先构建了数据空间树模型,并利用启发式信息对空间树进行剪枝。其次,提出了综合查询接口中文本域值的动态选择策略。最后,通过实验验证了本文方案能够有效地提高数据提取效率。⑵为了自动定位页面主数据区域,给出了一组启发式特征以及特征的量化方法,提出了基于特征值线性加权的方法进行主数据区域挖掘。⑶针对列表页数据记录抽取问题,利用页面的视觉信息与 DOM标签树信息计算视觉块的相似度,提出了抽取数据记录的block-regrouping算法,并通过实验验证了该方法的有效性。⑷为了缩短具有相同模板的记录抽取时间,提出了面向数据源的包装器生成方法。⑸在已有工作基础上设计了的Deep Web数据抽取原型系统,通过在本地模拟数据库与真实Web数据库上的实验验证了本系统的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号