首页> 中文学位 >基于实例的异构数据模式匹配方法研究与实现
【6h】

基于实例的异构数据模式匹配方法研究与实现

代理获取

目录

声明

致谢

摘要

1.1 研究背景

1.2 研究目的及意义

1.3 研究现状

1.4 研究内容

1.5 论文组织框架

1.6 本章小结

2.1 数据模式概述

2.1.1 数据模式相关概念

2.1.2 异构数据模式及其特点

2.1.3 数据实例相关概念

2.2 匹配方法分类

2.2.1 可表达匹配与不可表达匹配

2.2.2 元素匹配与结构匹配

2.3 特征信息提取

2.3.1 信息熵及其意义

2.3.2 条件熵与互信息

2.3.3 属性列分布及似然估计

2.4 元素匹配策略

2.5 匹配性能优化

2.6 匹配结果的评价指标

2.6.1 匹配准确率

2.6.2 匹配算法运行耗时

2.6.3 匹配算法的健壮性

2.7 模式匹配与机器学习

2.7.1 无监督匹配器集成方法

2.7.2 有监督匹配器集成方法

2.7.3 基于主动学习的匹配器集成方法

2.8 本章小结

3 基于有序互信息的模式匹配方法

3.1 问题描述

3.2 数据预处理

3.3 特征信息提取

3.4 相似建模

3.5 匹配策略设计

3.6 匹配算法优化

3.7 有序互信息图匹配算法

3.8 本章小结

4 实验结果与分析

4.1 实验环境

4.2 实验数据集

4.3 实验设计思路

4.3.1 数据预处理环节

4.3.2 有序互信息匹配环节

4.3.3 统计性能指标环节

4.4 实验结果与分析

4.4.1 匹配算法准确率对比实验

4.4.2 匹配算法耗时对比实验

4.4.3 数据实例中元组数量影响评估实验

4.4.4 数据实例信息熵分布影响评估实验

4.5 本章小结

5 总结与展望

5.1 工作总结

5.2 不足与展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

近年来,大部分企业已经完成业务数据信息化,各企业都搭建了自己的数据存储系统来存放自身业务数据。企业兼并引起的数据库合并,跨数据库查询服务,数据集成等应用都依赖异构数据源合并技术。
  数据模式匹配作为异构数据源数据合并中的基本问题,其目标是通过从与数据模式相关的信息中提取有效特征信息来描述数据模式之间的相似程度,进而找出数据模式中所有元素之间的最佳对应关系。当前大部分的数据模式匹配工作通过手工完成,但是数据规模的膨胀和数据源之间的异构性使人工匹配工作变得繁杂、耗时且极易出错,因而人工匹配数据模式的代价变得非常昂贵,通过实现模式匹配过程自动化来降低该过程耗费的时间已经成为各个数据集成应用的主要任务。
  经过多年的研究,目前在数据模式匹配领域已经许多不同类型的数据模式匹配方法,有依赖诸如字典等辅助信息的方法,也有依赖列名、列类型等数据模式描述信息的方法,也有一些依赖数据实例的方法。尽管不乏一些具有划时代意义的方法,但大多数方法还是缺乏领域无关性,因而仅对某个或者某几个特定领域的数据有效,缺乏通用性。
  在本文中通过分析总结当前方法的匹配原理的基础上,从解决通用性和匹配效率两个角度出发,提出了一种基于有序互信息的非透明列名和列数据值的数据模式匹配方法,该方法不依赖数据模式描述信息,直接从数据实例中抽取特征信息建立相似模型,因此具有良好的通用性。在多个公开数据集上的实验结果表明该方法能够在大幅降低匹配花费时间的同时提高匹配结果的准确率。

著录项

  • 作者

    郭乐乐;

  • 作者单位

    北京交通大学;

  • 授予单位 北京交通大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 董兴业;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    异构数据; 模式匹配; 非透明条件; 匹配效率;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号