首页> 中文会议>2007中国计算机大会 >基于短文本数据库加载的高效去重方法的设计与实现

基于短文本数据库加载的高效去重方法的设计与实现

摘要

去重处理是数据挖掘预处理中非常重要的一个环节。当前主流的数据清洗工具中对于重复数据的去除都是基于关系数据库,不适用于在加载过程中进行去重操作。本文针对海量短文本的加载,提出一种在分布式环境下,根据短文本的内容将数据散列到多台服务器上并行去除重复数据的方法CDDDR。同时,为了满足海量加载的性能要求,使用特征值降低文本匹配规模,提高了去重性能。实验表明,CDDDR在四台服务器上能满足4亿条/天的加载性能,同时去重的精确度可以达到97%以上.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号