首页> 中文期刊> 《信息技术与信息化》 >基于Kettle的数据预处理应用

基于Kettle的数据预处理应用

         

摘要

针对在数据预处理中数据清洗的重复数据问题,通过使用Kettle工具中的转换脚本达到去重的目的.在换脚本中使用"唯一行"组件或者"去除重复记录"组件能够方便高效地实现完全重复数据的多字段去重操作;对于不完全重复数据,需要结合源数据集字段的特点先基于某一合适的字段使用"模糊匹配"组件区分出无重复数据和疑似重复数据,然后通过基于有唯一性的字段使用"过滤记录"组件对疑似重复数据进行最终的去重操作.Kettle工具中的转换脚本对于数据的去重操作有着很好的效率和简单的操作方法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号