首页> 中文期刊>东华大学学报(自然科学版) >一种中文相似重复记录的检测方法

一种中文相似重复记录的检测方法

     

摘要

要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对.这种方法的难点在于关键字的选取标准缺乏通用性.这里提出一种通用的关键字选取方法,然后在一个变长窗口内进行记录的两两比对,以此检测带有编辑错误的中文相似重复记录.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号