面向XML相似性重复数据的清洗方法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着互联网信息技术的不断发展以及获取网络数据的方法多样化，大量电子数据在互联网中产生，其在各领域中的应用地位也随之提高。可扩展标记语言XML数据也大量飞速增长，XML作为半结构化数据由于自身特点及优势在各应用领域具有极大的重要性，但作为半结构化数据同样会出现数据质量问题，因此XML数据清洗问题不容忽视。由于XML数据自我描述特点，使其数据表现格式灵活自由，导致XML数据文档重复存在，尤其是相似性重复数据，将会导致大量冗余信息产生。
　　目前存在的有效分析和管理数据的方法工具只适用于对XML数据的简单分析操作，对问题数据进行有效处理总是被动的，并不能很好地解决XML的数据质量问题，因此清洗之后所保留的信息量只是XML原始数据信息量的一小部分而已。到目前为止，已有大量文献研究XML数据清洗方面的有关问题，其中大部分主要集中在XML相似性重复数据清洗方面，因为相似性重复数据问题一直是数据清洗的难题，其难点在于对存在的相似性重复数据进行检测，该过程对获取的信息准确度也同样非常重要。针对目前XML相似性重复数据的检测算法所存在的问题即时间复杂度和清洗效率方面存在的问题，本文对XML相似性重复数据检测方法进行了优化，为以后的数据挖掘等工作奠定基础。
　　本文针对XML相似性重复数据及其清洗问题方面进行了重点研究。对XML相似性重复数据进行定义，运用路径匹配方法对XML文档进行初步分类，对PSO检测算法进行了优化即GA-PSO算法，用于XML相似性重复数据的检测。该算法将GA中的交叉crossover和变异mutation操作算子引入PSO中，代替了PSO中通过跟踪粒子值方法更新粒子。通过模拟实验证明，GA-PSO优化算法在XML相似性重复数据的检测中，迭代收敛性能高，系统区域稳定性较快，而PSO寻优计算收敛性较差，尤其是在时间方面GA-PSO算法有很大的提高，减少了工作量，提高了效率。

著录项

作者
曹秀秀;
展开▼
作者单位

首都经济贸易大学;

展开▼
授予单位首都经济贸易大学;
学科产业经济学（信息经济）
授予学位硕士
导师姓名邵丽;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据质量; 清洗实验; XML文档; 相似性重复数据; GA-PSO算法;

相似文献

中文文献
外文文献
专利

1. 一种XML相似重复数据的清理方法研究 [J] . 陈伟 ,丁秋林 . 北京航空航天大学学报 . 2004,第009期
2. XML文档相似性度量方法研究 [J] . 张忠平 . 现代电子技术 . 2007,第004期
3. 面向XML数据库的智能数据清洗策略 [J] . 刘波 ,杨路明 ,雷刚跃 . 计算机工程 . 2008,第016期
4. 面向对象XML的对象迁移方法研究 [J] . 张晓琳 ,王国仁 . 计算机工程与应用 . 2008,第008期
5. 基于XML面向生命周期的企业建模方法研究 [J] . 郭秀清 ,严隽薇 ,刘敏 . 控制与决策 . 2007,第2期
6. 面向轻触元件的清洗方法研究 [C] . HUANG Yanyan ,黄妍妍 . 2013年海峡两岸平坦化技术研讨会 . 2013
7. XML相似重复数据的检测和清洗研究 [A] . 杨晓东 . 2018

面向XML相似性重复数据的清洗方法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅