基于视觉信息的Deep Web信息自动抽取技术的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术日新月异的发展,web已经成为一个巨大的信息源,拥有着海量的重要数据。目前数据挖掘在许多领域应用广泛,如:金融、医疗保险、市场分析等。通过分析挖掘得到的数据,可以获得许多有用知识,最大程度的进行辅助决策。然而,Web数据的特点是数量多,形式异构,自治的,分布存储,这使得 Web数据挖掘的分析工作变得尤为困难,所以当务之急是对数据进行集成,为高质量数据分析奠定基础。根据web中所蕴含信息的“深度”,可以将web分为Surface Web和Deep Web。在数量和质量上,Deep Web远远超过了Surface Web,具有较高的应用价值。因此,如何进行抽取Deep Web中的数据,以便于更有效的分析,具有重要的现实意义和广阔的应用前景。Internet上的各个网站的信息相互独立,Deep Web数据收集起来十分困难,在这种情况下,通常的搜索引擎发挥的作用微乎其微。虽然手工编写信息的抽取规则准确率较高,但技术门槛低,而且由于信息源的多元性和改版的潜在风险,手工方法无法满足人们对信息获取的需求。在这样的背景下,可以发现Deep Web信息自动提取技术的实现与研究是一个非常重要的问题。针对这一问题,本文在Deep Web信息自动抽取技术方面,包括基于网页视觉信息、机器学习训练模型、Deep Web数据区域定位、数据项的对齐等方面,进行了深入而系统的研究,同时开发了Web信息自动抽取系统。
　　本研究主要内容包括：⑴基于页面中的视觉信息,分割网页得到视觉块树,然后在视觉块树上,整合数据区域判定所需的视觉属性,得到进行实验的训练集。⑵使用机器学习的有效工具进行训练,结合人工编写的规则进行去重去噪,准确地完成了Deep Web数据区域的查找和定位。⑶提出了有效的对齐规则,大大提高了数据项的对齐准确率。⑷在以上研究内容的基础上,设计开发了Deep Web信息自动抽取系统,系统实现功能包括：网页视觉块树的转换；数据区域的自动定位；数据项的完整抽取与对齐；生成Wrapper；实现了自动翻页功能。

著录项

作者
谈凤真;
展开▼
作者单位

中国海洋大学;

展开▼
授予单位中国海洋大学;
学科计算机应用技术
授予学位硕士
导师姓名张巍;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类图像处理软件;
关键词
数据挖掘; 视频检索; 图像处理; 机器学习;

相似文献

中文文献
外文文献
专利

1. 基于xml的Deep Web信息自动抽取技术的研究 [J] . 彭媛媛 ,许建潮 . 科技信息 . 2009,第033期
2. 基于双目视觉信息融合的移动机器人避障研究基于双目视觉信息融合的移动机器人避障研究 [J] . 谷凤伟 ,金西虎 ,姜珊 . 电子世界 . 2015,第018期
3. 基于XML的WEB信息自动抽取方法的研究 [J] . 宋洁 ,张娜 ,刘艳柳 . 河北工业大学学报 . 2010,第005期
4. 面向领域的Web信息自动抽取技术研究 [J] . 陈建彪 . 计算机光盘软件与应用 . 2012,第024期
5. 基于网页聚类的Web信息自动抽取 [J] . 邱韬奋 ,杨天奇 ,曾洪波 . 微型机与应用 . 2011,第004期
6. 基于信息结构的突发事件文本事件信息自动抽取策略研究 [C] . 曾青青 ,杨尔弘 ,朱丹青 . 第五届全国青年计算语言学研讨会(YWCL 2010) . 2010
7. 基于视觉信息和DOM树的Deep Web数据自动抽取 [A] . 邹晓明 . 2014

基于视觉信息的Deep Web信息自动抽取技术的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅