基于视觉信息与DOM树的Deep Web数据获取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来,随着互联网信息的迅速膨胀,数据的商业价值不断地被挖掘出来,以提供增值服务,例如评论分析、元搜索、比较购物、大数据应用等,这些都是建立在Deep Web数据获取与数据集成基础之上。随着越来越多与领域相关且具有高质量信息的后台数据库的涌现,Deep Web数据获取与集成依然是个比较热门的研究方向。
　　本研究主要内容包括：⑴考虑到Deep Web查询接口具有多属性以及存在top-k问题,首先构建了数据空间树模型,并利用启发式信息对空间树进行剪枝。其次,提出了综合查询接口中文本域值的动态选择策略。最后,通过实验验证了本文方案能够有效地提高数据提取效率。⑵为了自动定位页面主数据区域,给出了一组启发式特征以及特征的量化方法,提出了基于特征值线性加权的方法进行主数据区域挖掘。⑶针对列表页数据记录抽取问题,利用页面的视觉信息与 DOM标签树信息计算视觉块的相似度,提出了抽取数据记录的block-regrouping算法,并通过实验验证了该方法的有效性。⑷为了缩短具有相同模板的记录抽取时间,提出了面向数据源的包装器生成方法。⑸在已有工作基础上设计了的Deep Web数据抽取原型系统,通过在本地模拟数据库与真实Web数据库上的实验验证了本系统的可行性。

著录项

作者
李学环;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机软件与理论
授予学位硕士
导师姓名崔志明;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
网络服务; 数据提取; 信息抽取; 程序语言;

相似文献

中文文献
外文文献
专利

1. D-EEM:一种基于DOM树的Deep Web实体抽取机制 [J] . 寇月 ,李冬 ,申德荣 . 计算机研究与发展 . 2010,第005期
2. 基于循环策略和动态知识的deep Web数据获取方法 [J] . 鲜学丰 ,崔志明 ,赵朋朋 . 通信学报 . 2012,第010期
3. 基于分布式网络爬虫的Web空间数据获取方法研究 [J] . 冯玲 ,黄亮 ,曾李阳 . 贵州大学学报（自然科学版） . 2019,第001期
4. 基于模板的Deep Web实体识别信息抽取方法研究 [J] . 王嵘冰 ,党小婉 ,徐红艳 . 辽宁大学学报（自然科学版） . 2017,第002期
5. 基于量子自组织神经网络的Deep Web分类方法研究 [J] . 张亮 ,陆余良 ,房珊瑶 . 计算机科学 . 2011,第006期
6. D-EEM：一种基于DOM树的Deep Web实体抽取机制 [C] . 寇月 ,李冬 ,申德荣 . 2008中国计算机大会 . 2008
7. 基于视觉信息和DOM树的Deep Web数据自动抽取 [A] . 邹晓明 . 2014

基于视觉信息与DOM树的Deep Web数据获取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅