首页> 中文学位 >应用于数据质量核查的几项数据挖掘技术研究
【6h】

应用于数据质量核查的几项数据挖掘技术研究

代理获取

摘要

质量低劣的数据已经成为影响企业正确决策的关键因素,成为制约信息服务的瓶颈。因此,如何高效的管理数据,提高数据质量,使其成为决策部门的有效依据,是具有较高研究价值和实际意义的问题。本文由此背景出发,根据不同类型的数据错误,采用相应检测方法,并通过实现具体程序,验证方法的有效性。
   本文首先介绍了数据质量的定义、分类、评价指标以及数据质量提高技术。然后总结了数据清洗技术的原理方法。最后针对不同的数据错误类型,给出了相应的解决方法。本文重点给出了异常数据和相似重复记录的检测方法。
   本文充分考虑数据内部之间的联系,采用基于关联规则的思想对异常数据进行检测。首先,将数据集中的数据进行转换,使其满足关联规则挖掘的条件;然后,在训练集中找出所有的频繁项集,由频繁项集生成关联规则,并将其放入规则库;最后,将测试集中的记录与规则库中的规则进行比对,以此判断记录是否异常。通过实验证明此方法检测异常数据效果良好。
   本文采用基于权值分组的方法来检测相似重复记录。根据识别事物的能力给不同的属性分配相应的权值,以此提高检测精度;根据关键字段将大数据集分割成不相交的小数据集,再在小数据集中检测相似重复记录,以减少匹配次数:采用位置编码方法计算字段相似度,解决了英文缩写问题和中文字符匹配问题;使用多趟查找技术克服了字符敏感问题。实验证明此方法能够快速准确的检测相似重复记录。

著录项

  • 作者

    梁懿;

  • 作者单位

    西南交通大学;

  • 授予单位 西南交通大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 朱焱;
  • 年度 2011
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据质量; 异常数据; 关联规则; 重复记录;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号