面向主题的半结构数据集成方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前，互联网的普及和应用改变了人们发布和获取信息的方式，几乎所有的机构与用户都会选择在互联网上发布数据，然而由于互联网提供了多样的发布形式且没有统一的格式要求，同领域的机构和用户发布的半结构数据表往往具有不一致的逻辑结构，这就使需要收集领域信息的用户面临很大的挑战，如何将这些结构不同的数据表统一并规范化存储成为一个亟需解决的问题。本文针对此问题进行了研究，提出了面向主题的半结构数据表的规范化、属性依赖和候选码识别方法，主要贡献如下：（1）提出了半结构数据表集成框架。对于半结构数据表集成方法提出了整体框架，描述了处理数据的完整流程，对规范表、非规范表、单元格、属性约简、差别函数等概念给出了形式化定义。（2）提出了非规范表规范化方法。通过表格的形式化定义，提出了一个可以自动地将不符合第一范式（1NF）的非规范表转化1NF规范表的方法。综合分析非规范表格的表头特征，提出了基于表头的规范化方法，包括识别规范表与非规范表、非规范表头的结构转化、表头中属性依赖关系的提取等。（3）提出了面向主题的属性依赖和候选码识别方法。以粗糙集中信息系统的属性约简算法为启发，提出了基于差别函数属性约简的属性依赖和候选码识别方法。通过非规范表头的嵌套结构提出了类核和非候选码集合的概念，并在此基础上改进了基于差别函数的属性约简算法。该算法利用增量式的同主题表格数据集、每个表格的类核、非候选码集合、核和差别函数、此主题的各个属性等共同计算属性候选码，最终得到此主题在二维表数据集中所有属性之间的依赖关系，并通过实验证明了方法的可行性和准确性。

著录项

作者
苏慧丽;
展开▼
作者单位

天津理工大学;

展开▼
授予单位天津理工大学;
学科计算机科学与技术
授予学位硕士
导师姓名王晓晔,李玉坤;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;自动化基础理论;
关键词
面向主题; 半结构; 数据集成;

相似文献

中文文献
外文文献
专利

1. 面向数据中心的装备保障数据集成方法研究 [J] . 代冬升 ,李雅峰 ,赵晓文 . 价值工程 . 2019,第023期
2. 面向三维工艺车间展示的数据集成方法研究 [J] . 王荣华 . 赤峰学院学报（自然科学版） . 2018,第004期
3. 面向复杂产品协同开发的数据集成方法研究 [J] . 周剑 ,朱耀琴 ,唐卫清 . 计算机科学 . 2009,第012期
4. 实时主动数据仓库中面向需求的实时数据集成方法研究 [J] . 林子雨 ,杨冬青 ,宋国杰 . 计算机研究与发展 . 2007,第0z3期
5. 面向企业的数据集成建模方法研究 [J] . 王妙云 ,王宏安 . 计算机与现代化 . 2003,第012期
6. 面向多应用的规划空间数据集成方法研究 [C] . 韩阳 ,董可德 ,陈爱民 . 2008中国城市规划信息化年会 . 2008
7. 面向主题的多源Web上结构化数据集成的研究与实现 [A] . 于谦 . 2011

面向主题的半结构数据集成方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅