首页> 中文学位 >基于条件概率图模型的Deep Web数据抽取与集成研究
【6h】

基于条件概率图模型的Deep Web数据抽取与集成研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景和意义

1.2 Deep Web数据抽取与集成的研究进展与现状

1.3条件概率图学习模型及其在信息抽取中的应用

1.4本文的研究内容与章节安排

第二章基于导航路径学习的领域Deep Web查询接口发现

2.1引言

2.2 Deep Web查询表单聚焦爬行系统

2.2.1万维网的网站链接图模型

2.2.2 QFormCollector的系统结构

2.2.3站间超链接搜索的实现

2.3基于序列超链接评价的网站内查询接口发现

2.3.1目标网页导航路径的概率图学习模型

2.3.2状态累计回报函数

2.3.3超链接评分函数

2.3.4网页爬行算法

2.4实验结果与分析

2.4.1系统运行效果图

2.4.2测试环境和使用的数据集

2.4.3表单爬虫的性能测试

2.4.4并行爬虫的效率测试

2.5小结

第三章多特征融合的Deep Web查询表单分类

3.1 引言

3.2 Deep Web查询表单识别

3.3查询表单的领域分类

3.4实验结果与分析

3.4.1测试数据集

3.4.2评价指标

3.4.3查询表单识别结果

3.4.4查询表单的领域分类结果

3.5 小结

第四章异构领域Web查询接口模式匹配

4.1引言

4.2Web查询接口的抽取与表示

4.2.1查询接口的定义

4.2.2查询接口的抽取

4.2.3查询接口的理解

4.3基于层次序列条件随机场的异构Web查询接口模式匹配

4.3.1层次序列条件随机场模型

4.3.2模型的参数训练

4.3.3基于联合树的参数估计和推理

4.4实验结果与分析

4.4.1测试数据集

4.4.2评价指标

4.4.3实验结果

4.5小结

第五章查询结果网页中Web记录的抽取与语义标注

5.1引言

5.2 Web网页分割与动态数据区域的识别

5.2.1 HTML网页的语法解析

5.2.2网页的区域分割

5.2.3动态数据区域的识别

5.3基于混合跳链条件随机场的Web记录联合抽取和语义标注

5.3.1混合跳链条件随机场模型

5.3.2模型训练和推理过程

5.3.3语义标注算法

5.4实验结果与分析

5.4.1数据区域识别算法评价

5.4.2语义标注模型性能评价

5.5 小结

第六章多源重复Web记录检测

6.1引言

6.2条件训练字符串编辑距离

6.2.1字符串编辑比对条件随机场模型

6.2.2模型参数估计方法

6.3合并多字段相似度的自适应重复Web记录检测

6.4实验结果与分析

6.4.1实验数据集

6.4.2字符串编辑距离模型的测试结果

6.4.3合并多字段重复记录检测的实验结果

6.5 小结

结束语

致谢

参考文献

攻读博士学位期间的研究成果

展开▼

摘要

目前,大量的结构化数据蕴藏在Deep web中,但是由于Web网页的半结构性、Web超链接的自由无序性以及Deep Web数据的海量性、异构性、多样性、动态性等特点,使得Deep Web数据抽取与集成成为当前亟待解决的研究课题。概率图学习模型是机器学习领域当前异常活跃的研究热点之一。它在数据挖掘、信息抽取、信息检索等领域得到了广泛而成功的应用。 本文将条件随机场,一种序列条件概率无向图模型,引入到Deep Web数据抽取和集成的研究中,对其中的查询接口发现、分类、集成以及查询结果数据的抽取和重复记录检测等多个具有挑战性的实际问题进行了系统和深入地研究。针对不同问题提出了改进的条件随机场模型、新的算法或新的实现策略,主要工作概括如下: (1)针对Deep Web查询接口自动搜索和发现问题,提出了基于条件随机场的网页链接路径学习模型,给出了使用增强学习技术对超链接进行评分的算法。实验结果表明,搜索查询表单的性能明显优于其它袁单爬虫。 (2)使用条件最大熵模型处理Deep Web查询接口识别和领域分类问题。提出了一种仅利用表单结构特征来识别在线数据库查询接口的通用方法。此外,利用最大熵分类器的优点,融合查询表单的结构、内容等多种特征来实现查询表单的领域分类。实验结果表明。该方法分类准确率高。 (3)利用有序树模型来表示抽取的查询接口中查询项、字段和属性问的层次关系。提出了一种层次序列条件随机场模型,通过对查询表单中的查询元素进行联合标注分类,实现异构查询接口模式匹配。实验结果表明,该方法具有较高的匹配准确率和跨领域通用特性。 (4)提出了一种基于标记树的网页区域分割方法,并且结合网页聚类和跨网页数据区域匹配技术来识别网页中的动态数据区域。针对多源Web记录语义标注和集成问题,提出一种混合跳链条件随机场模型。该模型通过将最大熵和线性链条件随机场混合,能够利用相关数据库中的记录作为训练样本识别抽取数据的语义标注,从而减少了对手工标注样本的依赖:此外增加对跳边的支持,使得模型能够处理状态变量问的长距离依赖。 (5)最后,针对重复Web记录检测问题。提出一种条件训练字符串编辑距离模型,可以从训练样本数据中自动学习字符串对的相似函数。此外,使用支持向量机联合多字段相似度实现重复记录检测。实验结果表明。避免了采用固定距离度量函数可能引起的字段相似度估计偏差,并且提高了重复记录检测的鲁棒性。

著录项

  • 作者

    黄健斌;

  • 作者单位

    西安电子科技大学;

  • 授予单位 西安电子科技大学;
  • 学科 模式识别与智能系统
  • 授予学位 博士
  • 导师姓名 姬红兵;
  • 年度 2007
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.41;
  • 关键词

    数据抽取; 概率图模型; 数据库查询; 记录检测;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号