首页> 中文期刊>科技与创新 >基于Mahout的相似重复数据清洗策略研究

基于Mahout的相似重复数据清洗策略研究

     

摘要

针对在海量日志记录中无法有效抽取高价值的数据问题,提出一种基于Mahout的k-means短文本聚类清洗算法,利用开源机器学习算法库Mahout,将文本聚类与数据清洗相结合,通过聚类检测相似重复记录,有效提升重复数据清洗速率。实验结果表明,该方法在保证较高查全率与查准率的同时,比传统相似重复数据清洗算法更具有扩展性,这对大数据的处理有较强的实用意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号