基于条件概率图模型的Deep Web数据抽取与集成研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前，大量的结构化数据蕴藏在Deep web中，但是由于Web网页的半结构性、Web超链接的自由无序性以及Deep Web数据的海量性、异构性、多样性、动态性等特点，使得Deep Web数据抽取与集成成为当前亟待解决的研究课题。概率图学习模型是机器学习领域当前异常活跃的研究热点之一。它在数据挖掘、信息抽取、信息检索等领域得到了广泛而成功的应用。本文将条件随机场，一种序列条件概率无向图模型，引入到Deep Web数据抽取和集成的研究中，对其中的查询接口发现、分类、集成以及查询结果数据的抽取和重复记录检测等多个具有挑战性的实际问题进行了系统和深入地研究。针对不同问题提出了改进的条件随机场模型、新的算法或新的实现策略，主要工作概括如下： (1)针对Deep Web查询接口自动搜索和发现问题，提出了基于条件随机场的网页链接路径学习模型，给出了使用增强学习技术对超链接进行评分的算法。实验结果表明，搜索查询表单的性能明显优于其它袁单爬虫。 (2)使用条件最大熵模型处理Deep Web查询接口识别和领域分类问题。提出了一种仅利用表单结构特征来识别在线数据库查询接口的通用方法。此外，利用最大熵分类器的优点，融合查询表单的结构、内容等多种特征来实现查询表单的领域分类。实验结果表明。该方法分类准确率高。 (3)利用有序树模型来表示抽取的查询接口中查询项、字段和属性问的层次关系。提出了一种层次序列条件随机场模型，通过对查询表单中的查询元素进行联合标注分类，实现异构查询接口模式匹配。实验结果表明，该方法具有较高的匹配准确率和跨领域通用特性。 (4)提出了一种基于标记树的网页区域分割方法，并且结合网页聚类和跨网页数据区域匹配技术来识别网页中的动态数据区域。针对多源Web记录语义标注和集成问题，提出一种混合跳链条件随机场模型。该模型通过将最大熵和线性链条件随机场混合，能够利用相关数据库中的记录作为训练样本识别抽取数据的语义标注，从而减少了对手工标注样本的依赖：此外增加对跳边的支持，使得模型能够处理状态变量问的长距离依赖。 (5)最后，针对重复Web记录检测问题。提出一种条件训练字符串编辑距离模型，可以从训练样本数据中自动学习字符串对的相似函数。此外，使用支持向量机联合多字段相似度实现重复记录检测。实验结果表明。避免了采用固定距离度量函数可能引起的字段相似度估计偏差，并且提高了重复记录检测的鲁棒性。

著录项

作者
黄健斌;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科模式识别与智能系统
授予学位博士
导师姓名姬红兵;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.41;
关键词
数据抽取; 概率图模型; 数据库查询; 记录检测;

相似文献

中文文献
外文文献
专利

1. 基于移动Agent的Deep Web数据集成研究 [J] . 袁靓 ,王小玲 ,潘泽波 . 微计算机信息 . 2008,第018期
2. 基于云计算面向网络舆情的Deep Web数据抽取关键技术研究 [J] . 陈巧 ,丁卫泽 ,施佺 . 电脑知识与技术 . 2016,第015期
3. 基于语义支持的Deep Web数据抽取 [J] . 高明 ,王继成 ,李江峰 . 计算机科学 . 2010,第003期
4. 基于结果模式的Deep Web数据抽取 [J] . 马安香 ,张斌 ,高克宁 . 计算机研究与发展 . 2009,第002期
5. 面向应急预案领域的Deep Web数据集成研究 [J] . 张波 ,党德鹏 . 计算机应用与软件 . 2013,第010期
6. 基于混合属性的Deep Web数据抽取算法 [C] . SHANG Xia ,尚霞 ,LI Gui . 中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会 . -1
7. 基于半自动化WEB数据抽取器的信息集成研究 [A] . 吴俊霖 . 2010

基于条件概率图模型的Deep Web数据抽取与集成研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅