首页> 中文学位 >基于领域模型的数据抽取与集成
【6h】

基于领域模型的数据抽取与集成

代理获取

目录

声明

摘要

第一章 绪论

1.1 WEB结构化数据抽取和集成的目的和意义

1.1.1 研究的目的

1.1.2 研究的意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 相关背景知识

1.3.1 WEB数据挖掘与集成概述

1.3.2 相关理论与技术

1.4 本文的主要工作

1.5 论文结构

第二章 基于领域模型的数据抽取与集成

2.1 WEB表结构数据分析

2.1.1 WEB表格

2.1.2 WEB表格分类

2.2 WEB数据模型与模式

2.3 领域数据模型

2.4 WEB数据抽取与集成

2.4.1 系统结构

2.4.2 基于领域模型的数据抽取和集成方法

2.5 本章小结

第三章 实体扩充

3.1 实体扩充概述

3.2 实体扩充

3.2.1 实体扩充模型

3.2.2 实体间相似性的计算

3.2.3 质量评估

3.2.4 实体扩充算法

3.2.5 静态阈值算法

3.2.6 动态阈值算法

3.3 本章小结

第四章 属性扩充

4.1 属性扩充概述

4.2 属性扩充系统框架概述

4.2.1 训练阶段概述

4.2.2 部署阶段概述

4.3 约束

4.3.1 实体约束

4.3.2 类别约束

4.4 属性值分配

4.4.1 本地模型

4.4.2 分类器训练

4.5 本章小结

第五章 实验结果

5.1 评估标准介绍

5.2 实验背景

5.3 实验结果

5.4 本章小结

第六章 总结

6.1 本文总结

6.2 今后的研究工作

参考文献

作者简介

致谢

展开▼

摘要

随着万维网的迅速发展,网络上的数据量越来越大,并且仍保持着高速的增长,网络中的海量数据正在成为一个最重要的信息源。在这些饱含数据信息的网络资源中,由于半结构化信息有很多的优点使得它正在成为不同领域行业网站中最重要的WEB数据抽取对象之一。本文主要研究了如何有效地抽取行业领域网站中的领域数据并对这些异构数据集成,以提供面向领域的增值服务。
   本文研究的基于领域模型的数据抽取与集成是通过对WEB半结构化数据(WEB表)中布局表与属性/值表的表结构分析,并结合领域需求的特点,在WEB数据模型的基础上提出了WEB数据模式和领域数据模型,给出了基于WEB数据模式的数据抽取算法和基于领域数据模型的数据集成算法。
   由于web信息是不断发展和丰富的过程,本文采用实体扩充和属性扩充来完善基于领域模型的抽取与集成算法。实体扩充算法首先通过基于领域模型的抽取方法获取领域数据作为种子集合,然后使用实体扩充方法自动获取领域行业中的其他WEB表格的领域数据。该方法将网络表格和领域实体建模成二分图,通过计算出扩展实体集合和种子集合的相似度和扩展实体集合自身的紧密度,并对相似度和紧密度加权计算作为扩展实体的质量分数,根据质量分数对扩展集合进行迭代替换,直到找出的扩展实体集合的质量分数最大,并且扩展实体集合的实体不再变化。该方法中实体间的相似度计算方法可以用其他的相似度计算方法替代,使得该实体扩充模型具有很好的扩展性。
   属性扩充算法首先在训练阶段生成分类器和类别约束,然后在部署阶段进行网络文本中属性值的抽取和分配工作,最后将抽取的属性扩充到领域属性模型中。属性扩充的部署阶段主要通过实体约束和类别约束来排除大部分的错误属性,然后采用整数线性回归的方法找出与文本片段具有最大关联的属性值。
   结合行业领域中领域数据的特点以及数据呈现的页面之间的关系,本文将这些领域数据抽取和集成的方法用于了房产数据的抽取。试验结果表明,本文的基于领域抽取与集成算法能够有效地实现行业领域数据的自动地抽取和集成工作。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号