首页> 中文期刊>计算机与数字工程 >基于信息熵属性约简的相似重复记录检测方法

基于信息熵属性约简的相似重复记录检测方法

     

摘要

相似记录检测已成为数据清洗的一个重要分支,也是消除数据冗余提高数据质量的一个重要途径,在数据统计、数据分析、数据仓库、人工智能和数据挖掘等领域都有实际应用。该文对目前相似记录检测方法进行了研究,针对诸多方法都存在检测精度不足和时效慢的问题,采用K-Modes进行聚类分组的方法,通过信息熵理论来确定属性权重并约简属性维度,同时在记录匹配阶段依据属性重要程度对各聚类分组的数据逐属性进行比较,根据阈值来判断其相似性,避免整条记录参与匹配耗费时间,在完成对每个数据集的检测后最终消除相似重复记录。实验表明,该方法能有效缩小检测数据集范围和相似匹配效率,提高检测精度和时间效率,具有较高的查全率和查准率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号