文摘
英文文摘
声明
第一章绪论
1.1研究背景和意义
1.2 Deep Web数据抽取与集成的研究进展与现状
1.3条件概率图学习模型及其在信息抽取中的应用
1.4本文的研究内容与章节安排
第二章基于导航路径学习的领域Deep Web查询接口发现
2.1引言
2.2 Deep Web查询表单聚焦爬行系统
2.2.1万维网的网站链接图模型
2.2.2 QFormCollector的系统结构
2.2.3站间超链接搜索的实现
2.3基于序列超链接评价的网站内查询接口发现
2.3.1目标网页导航路径的概率图学习模型
2.3.2状态累计回报函数
2.3.3超链接评分函数
2.3.4网页爬行算法
2.4实验结果与分析
2.4.1系统运行效果图
2.4.2测试环境和使用的数据集
2.4.3表单爬虫的性能测试
2.4.4并行爬虫的效率测试
2.5小结
第三章多特征融合的Deep Web查询表单分类
3.1 引言
3.2 Deep Web查询表单识别
3.3查询表单的领域分类
3.4实验结果与分析
3.4.1测试数据集
3.4.2评价指标
3.4.3查询表单识别结果
3.4.4查询表单的领域分类结果
3.5 小结
第四章异构领域Web查询接口模式匹配
4.1引言
4.2Web查询接口的抽取与表示
4.2.1查询接口的定义
4.2.2查询接口的抽取
4.2.3查询接口的理解
4.3基于层次序列条件随机场的异构Web查询接口模式匹配
4.3.1层次序列条件随机场模型
4.3.2模型的参数训练
4.3.3基于联合树的参数估计和推理
4.4实验结果与分析
4.4.1测试数据集
4.4.2评价指标
4.4.3实验结果
4.5小结
第五章查询结果网页中Web记录的抽取与语义标注
5.1引言
5.2 Web网页分割与动态数据区域的识别
5.2.1 HTML网页的语法解析
5.2.2网页的区域分割
5.2.3动态数据区域的识别
5.3基于混合跳链条件随机场的Web记录联合抽取和语义标注
5.3.1混合跳链条件随机场模型
5.3.2模型训练和推理过程
5.3.3语义标注算法
5.4实验结果与分析
5.4.1数据区域识别算法评价
5.4.2语义标注模型性能评价
5.5 小结
第六章多源重复Web记录检测
6.1引言
6.2条件训练字符串编辑距离
6.2.1字符串编辑比对条件随机场模型
6.2.2模型参数估计方法
6.3合并多字段相似度的自适应重复Web记录检测
6.4实验结果与分析
6.4.1实验数据集
6.4.2字符串编辑距离模型的测试结果
6.4.3合并多字段重复记录检测的实验结果
6.5 小结
结束语
致谢
参考文献
攻读博士学位期间的研究成果