首页> 中文学位 >面向主题的半结构数据集成方法研究
【6h】

面向主题的半结构数据集成方法研究

代理获取

目录

声明

第一章 绪论

1.1研究背景及意义

1.2研究现状

1.3研究的主要内容

1.4论文的组织结构

第二章 面向主题的半结构数据集成框架

2.1半结构数据表格的特点

2.2半结构数据表格集成概述

2.3面向主题的半结构表格集成框架

2.4本章小结

第三章 非规范表规范化方法

3.1相关工作

3.2规范化方法框架

3.3非规范表规范化方法

3.4方法可行性分析

3.5实验评估

3.6本章小结

第四章 面向主题的属性依赖和候选码识别方法

4.1相关工作

4.2粗糙集的信息系统属性约简

4.3基于差别函数的属性依赖和候选码识别算法

4.4实验评估

4.5本章小结

第五章 总结与展望

5.1研究成果总结

5.2未来工作展望

参考文献

发表论文和科研情况说明

致谢

展开▼

摘要

目前,互联网的普及和应用改变了人们发布和获取信息的方式,几乎所有的机构与用户都会选择在互联网上发布数据,然而由于互联网提供了多样的发布形式且没有统一的格式要求,同领域的机构和用户发布的半结构数据表往往具有不一致的逻辑结构,这就使需要收集领域信息的用户面临很大的挑战,如何将这些结构不同的数据表统一并规范化存储成为一个亟需解决的问题。本文针对此问题进行了研究,提出了面向主题的半结构数据表的规范化、属性依赖和候选码识别方法,主要贡献如下: (1)提出了半结构数据表集成框架。对于半结构数据表集成方法提出了整体框架,描述了处理数据的完整流程,对规范表、非规范表、单元格、属性约简、差别函数等概念给出了形式化定义。 (2)提出了非规范表规范化方法。通过表格的形式化定义,提出了一个可以自动地将不符合第一范式(1NF)的非规范表转化1NF规范表的方法。综合分析非规范表格的表头特征,提出了基于表头的规范化方法,包括识别规范表与非规范表、非规范表头的结构转化、表头中属性依赖关系的提取等。 (3)提出了面向主题的属性依赖和候选码识别方法。以粗糙集中信息系统的属性约简算法为启发,提出了基于差别函数属性约简的属性依赖和候选码识别方法。通过非规范表头的嵌套结构提出了类核和非候选码集合的概念,并在此基础上改进了基于差别函数的属性约简算法。该算法利用增量式的同主题表格数据集、每个表格的类核、非候选码集合、核和差别函数、此主题的各个属性等共同计算属性候选码,最终得到此主题在二维表数据集中所有属性之间的依赖关系,并通过实验证明了方法的可行性和准确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号