首页> 中文学位 >面向XML相似性重复数据的清洗方法研究
【6h】

面向XML相似性重复数据的清洗方法研究

代理获取

目录

声明

摘要

1 引言

1.1 研究背景及意义

1.2 国内外相关研究现状

1.3 研究内容及文章结构

1.3.1 本文研究内容

1.3.2 本文组织结构

2 相关理论和技术

2.1 数据质量

2.1.1 数据质量问题定义

2.1.2 数据质量维度评估

2.2 数据清洗

2.2.1 数据清洗

2.2.2 数据清洗基本原理

2.2.3 数据清洗的应用

2.3 可扩展标记语言XML

2.3.1 XML基本概念

2.3.2 XML相关技术

2.4 本章小结

3 XML数据清洗方法研究

3.1 XML数据质量问题

3.2 XML数据清洗方法研究

3.2.1 相关方法研究

3.2.2 XML相似性重复数据的清洗过程

3.3 本章小结

4 方法优化及模拟实验

4.1 XML相似性重复数据清洗框架

4.2 相似性数据检测方法优化

4.2.1 粒子群算法PSO

4.2.2 遗传算法GA

4.2.3 方法优化GA-PSO

4.3 清洗评估指标

4.4 模拟实验及结果分析

4.4.1 数据来源及实验环境

4.4.2 实验过程

4.4.3 实验结果分析

4.5 本章小结

5 总结与展望

5.1 本文总结

5.2 研究展望

参考文献

在学期间发表的学术论文和研究成果

致谢

展开▼

摘要

随着互联网信息技术的不断发展以及获取网络数据的方法多样化,大量电子数据在互联网中产生,其在各领域中的应用地位也随之提高。可扩展标记语言XML数据也大量飞速增长,XML作为半结构化数据由于自身特点及优势在各应用领域具有极大的重要性,但作为半结构化数据同样会出现数据质量问题,因此XML数据清洗问题不容忽视。由于XML数据自我描述特点,使其数据表现格式灵活自由,导致XML数据文档重复存在,尤其是相似性重复数据,将会导致大量冗余信息产生。
  目前存在的有效分析和管理数据的方法工具只适用于对XML数据的简单分析操作,对问题数据进行有效处理总是被动的,并不能很好地解决XML的数据质量问题,因此清洗之后所保留的信息量只是XML原始数据信息量的一小部分而已。到目前为止,已有大量文献研究XML数据清洗方面的有关问题,其中大部分主要集中在XML相似性重复数据清洗方面,因为相似性重复数据问题一直是数据清洗的难题,其难点在于对存在的相似性重复数据进行检测,该过程对获取的信息准确度也同样非常重要。针对目前XML相似性重复数据的检测算法所存在的问题即时间复杂度和清洗效率方面存在的问题,本文对XML相似性重复数据检测方法进行了优化,为以后的数据挖掘等工作奠定基础。
  本文针对XML相似性重复数据及其清洗问题方面进行了重点研究。对XML相似性重复数据进行定义,运用路径匹配方法对XML文档进行初步分类,对PSO检测算法进行了优化即GA-PSO算法,用于XML相似性重复数据的检测。该算法将GA中的交叉crossover和变异mutation操作算子引入PSO中,代替了PSO中通过跟踪粒子值方法更新粒子。通过模拟实验证明,GA-PSO优化算法在XML相似性重复数据的检测中,迭代收敛性能高,系统区域稳定性较快,而PSO寻优计算收敛性较差,尤其是在时间方面GA-PSO算法有很大的提高,减少了工作量,提高了效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号