基于领域模型的数据抽取与集成

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着万维网的迅速发展，网络上的数据量越来越大，并且仍保持着高速的增长，网络中的海量数据正在成为一个最重要的信息源。在这些饱含数据信息的网络资源中，由于半结构化信息有很多的优点使得它正在成为不同领域行业网站中最重要的WEB数据抽取对象之一。本文主要研究了如何有效地抽取行业领域网站中的领域数据并对这些异构数据集成，以提供面向领域的增值服务。
　　本文研究的基于领域模型的数据抽取与集成是通过对WEB半结构化数据（WEB表）中布局表与属性/值表的表结构分析，并结合领域需求的特点，在WEB数据模型的基础上提出了WEB数据模式和领域数据模型，给出了基于WEB数据模式的数据抽取算法和基于领域数据模型的数据集成算法。
　　由于web信息是不断发展和丰富的过程，本文采用实体扩充和属性扩充来完善基于领域模型的抽取与集成算法。实体扩充算法首先通过基于领域模型的抽取方法获取领域数据作为种子集合，然后使用实体扩充方法自动获取领域行业中的其他WEB表格的领域数据。该方法将网络表格和领域实体建模成二分图，通过计算出扩展实体集合和种子集合的相似度和扩展实体集合自身的紧密度，并对相似度和紧密度加权计算作为扩展实体的质量分数，根据质量分数对扩展集合进行迭代替换，直到找出的扩展实体集合的质量分数最大，并且扩展实体集合的实体不再变化。该方法中实体间的相似度计算方法可以用其他的相似度计算方法替代，使得该实体扩充模型具有很好的扩展性。
　　属性扩充算法首先在训练阶段生成分类器和类别约束，然后在部署阶段进行网络文本中属性值的抽取和分配工作，最后将抽取的属性扩充到领域属性模型中。属性扩充的部署阶段主要通过实体约束和类别约束来排除大部分的错误属性，然后采用整数线性回归的方法找出与文本片段具有最大关联的属性值。
　　结合行业领域中领域数据的特点以及数据呈现的页面之间的关系，本文将这些领域数据抽取和集成的方法用于了房产数据的抽取。试验结果表明，本文的基于领域抽取与集成算法能够有效地实现行业领域数据的自动地抽取和集成工作。

著录项

作者
张淼;
展开▼
作者单位

沈阳建筑大学;

展开▼
授予单位沈阳建筑大学;
学科计算机应用技术
授予学位硕士
导师姓名李贵;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;TP311.13;
关键词
领域模型; 数据处理; 扩充方法; WEB半结构化数据; 表结构分析;

相似文献

中文文献
外文文献
专利

1. 基于领域模型的Web数据抽取与集成 [J] . 李贵 ,张淼 ,李征宇 . 微电子学与计算机 . 2012 ,第9期
2. 基于扩展领域模型的有名属性抽取 [J] . 王宇 ,谭松波 ,廖祥文 . 计算机研究与发展 . 2010 ,第009期
3. 基于CWM的企业元数据集成中元数据抽取与导出研究 [J] . 丁长松 ,胡周君 . 计算技术与自动化 . 2008 ,第003期
4. 基于领域模式的Web数据抽取与集成系统研究与实现 [J] . 李贵1 ,耿传杰1 ,韩子扬1 . 计算机科学与应用 . 2016 ,第004期
5. 基于元数据和XML的信息抽取与集成技术研究 [J] . 亓祥波 ,南琳 ,张福顺 . 信息与控制 . 2008 ,第1期
6. 基于领域模型的Web数据抽取与集成 [C] . LI Gui ,李贵 ,ZHANG Miao . 2012年江苏省计算机学会网络与分布计算专委会和网格与服务计算专委会联合学术年会 . 2012
7. 基于重复模式的Web数据抽取与集成应用 [A] . 朱光 . 2012

基于领域模型的数据抽取与集成

目录

摘要

著录项

相似文献

相关主题

期刊订阅