首页> 中文期刊> 《计算机科学与探索》 >Pass-Join-K:多分段匹配的相似性连接算法

Pass-Join-K:多分段匹配的相似性连接算法

     

摘要

相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注.研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join算法的基础上,提出了一个新的Pass-Join-K算法.Pass-Join-K算法在长短字符串上都有很好的表现.该算法的主要思想是利用Pass-Join算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的.实验结果显示,Pass-Join-K算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号