首页> 中文学位 >基于视觉信息的Deep Web信息自动抽取技术的研究
【6h】

基于视觉信息的Deep Web信息自动抽取技术的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 引言

1.1 研究背景和意义

1.2 Web 信息抽取技术的发展

1.3 本文研究内容及创新点

1.4 本论文的组织

2 决策树分类算法

2.1 决策树简介

2.2 决策树的评估

2.3 WEKA 工具描述

2.4 小结

3 机器学习与规则融合的列表页面抽取

3.1 网页的视觉特征

3.2 Deep Web 页面的视觉化表示

3.3 页面分割算法 VIPS 的概述与应用

3.4 数据区域的自动定位

3.5 数据项的对齐并输出

3.6 小结

4 列表页面自动抽取系统

4.1 系统简介

4.2 小结

5 总结与展望

5.1 总结

5.2 展望未来的工作

参考文献

致谢

个人简历

发表的论文

科研成果

展开▼

摘要

随着互联网技术日新月异的发展,web已经成为一个巨大的信息源,拥有着海量的重要数据。目前数据挖掘在许多领域应用广泛,如:金融、医疗保险、市场分析等。通过分析挖掘得到的数据,可以获得许多有用知识,最大程度的进行辅助决策。然而,Web数据的特点是数量多,形式异构,自治的,分布存储,这使得 Web数据挖掘的分析工作变得尤为困难,所以当务之急是对数据进行集成,为高质量数据分析奠定基础。根据web中所蕴含信息的“深度”,可以将web分为Surface Web和Deep Web。在数量和质量上,Deep Web远远超过了Surface Web,具有较高的应用价值。因此,如何进行抽取Deep Web中的数据,以便于更有效的分析,具有重要的现实意义和广阔的应用前景。Internet上的各个网站的信息相互独立,Deep Web数据收集起来十分困难,在这种情况下,通常的搜索引擎发挥的作用微乎其微。虽然手工编写信息的抽取规则准确率较高,但技术门槛低,而且由于信息源的多元性和改版的潜在风险,手工方法无法满足人们对信息获取的需求。在这样的背景下,可以发现Deep Web信息自动提取技术的实现与研究是一个非常重要的问题。针对这一问题,本文在Deep Web信息自动抽取技术方面,包括基于网页视觉信息、机器学习训练模型、Deep Web数据区域定位、数据项的对齐等方面,进行了深入而系统的研究,同时开发了Web信息自动抽取系统。
  本研究主要内容包括:⑴基于页面中的视觉信息,分割网页得到视觉块树,然后在视觉块树上,整合数据区域判定所需的视觉属性,得到进行实验的训练集。⑵使用机器学习的有效工具进行训练,结合人工编写的规则进行去重去噪,准确地完成了Deep Web数据区域的查找和定位。⑶提出了有效的对齐规则,大大提高了数据项的对齐准确率。⑷在以上研究内容的基础上,设计开发了Deep Web信息自动抽取系统,系统实现功能包括:网页视觉块树的转换;数据区域的自动定位;数据项的完整抽取与对齐;生成Wrapper;实现了自动翻页功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号