基于视觉信息和树匹配的Deep Web数据抽取问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络技术的快速发展和普及，Web已经成为一个巨大的信息源集合，拥有着海量信息。Deep Web是由Web中可在线访问的数据库构成，具有信息量大、结构化程度高、领域覆盖全面等特点，Deep Web对以分析挖掘为目标的应用系统有着十分重大的应用价值。随着电子商务、市场情报等应用需求的增长，如何从Deep Web中获取用户感兴趣的信息或数据，以便进行深度的分析从而提供更具价值的服务和应用，比如比价系统、元搜索等，已成为目前研究的热点课题。为了有效利用Deep Web，Deep Web数据集成应运而生，包括数据获取、数据抽取和数据整合等环节，其中Deep Web数据抽取是其关键环节。
　　由于Deep Web的海量、异构等特点使得Deep Web数据抽取成为一项极具挑战的工作，其主要困难有:(1)Deep Web涉及领域广，数据量大，要实现Deep Web数据的自动抽取。(2)不同Deep Web页面差距较大，抽取方法要有一定的适应性，确保其抽取的正确率和效率。
　　本文针对Deep Web中包含半结构化数据的列表页面，利用页面的视觉信息和树匹配技术，实现了此类Web页面中数据的全自动抽取，其主要贡献和创新有以下两点:
　　(1)列表页面中数据记录的识别和抽取
　　Web页面的设计是为了方便用户浏览，有着丰富的视觉信息，比如字体、布局、背景等。为了方便利用页面的视觉信息，我们给出了页面的表示模型——视觉块树，相较于VIPS等页面分块技术，这里没有使用任何假设和启发式规则，更能客观的反应页面信息。
　　为了抽取数据记录，我们首先识别出数据区域，这里结合列表页面的视觉特征，给出了数据区域识别算法，相较于传统方法，此算法有较强的适应性。对于数据区域下数据记录的识别，本文采用一种序列划分的策略，其基本思想是先对数据区域树下子树聚类，根据聚类的结果信息对子树序列进行划分，过滤掉噪声节点从而确定每条数据记录的边界，最终实现数据区域下数据记录的抽取工作。
　　(2)基于树匹配技术实现数据项对齐
　　数据项对齐是指将由同一模板生成的数据记录中相同语义项放在关系表的同一列下，即为数据记录生成关系模式。本文将每条数据记录看为一棵树，从而把数据记录模式生成看为多序列对齐问题。首先给出了树匹配的一种严格模式;然后采用简单树匹配(Simple Tree Matching，简称STM)算法得到两棵树的一个最大匹配，由于采用了视觉块树这种数据结构，能对STM进行一些剪枝操作，可使算法复杂度由O(n2)几乎降为线性;最后基于STM给出了模式生成算法。

著录项

作者
凡思武;
展开▼
作者单位

山东大学;

展开▼
授予单位山东大学;
学科计算机科学与技术
授予学位硕士
导师姓名王新军;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP274.2;
关键词
网络数据; 全自动抽取; 视觉信息; 树匹配算法;

相似文献

中文文献
外文文献
专利

1. 基于云计算面向网络舆情的Deep Web数据抽取关键技术研究 [J] . 陈巧 ,丁卫泽 ,施佺 . 电脑知识与技术 . 2016,第015期
2. 基于语义支持的Deep Web数据抽取 [J] . 高明 ,王继成 ,李江峰 . 计算机科学 . 2010,第003期
3. 基于结果模式的Deep Web数据抽取 [J] . 马安香 ,张斌 ,高克宁 . 计算机研究与发展 . 2009,第002期
4. 基于模型匹配的Deep Web数据库分类 [J] . 郭东伟 ,李三义 ,张仲明 . 吉林大学学报（理学版） . 2011,第003期
5. 基于实例的Deep Web数据源结果模式匹配技术 [J] . 聂铁铮 ,于戈 ,申德荣 . 计算机科学与探索 . 2008,第006期
6. 基于混合属性的Deep Web数据抽取算法 [C] . SHANG Xia ,尚霞 ,LI Gui . 中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会 . -1
7. 基于视觉信息和DOM树的Deep Web数据自动抽取 [A] . 邹晓明 . 2014

基于视觉信息和树匹配的Deep Web数据抽取问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅