首页> 外文OA文献 >Pass-Join-K: Similarity Join Method Based on Multi-Match Partition
【2h】

Pass-Join-K: Similarity Join Method Based on Multi-Match Partition

机译:Pass-Join-K:基于多匹配分区的相似联接方法

摘要

相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注。研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在PASS-JOIn算法的基础上,提出了一个新的PASS-JOIn-k算法。PASS-JOIn-k算法在长短字符串上都有很好的表现。该算法的主要思想是利用PASS-JOIn算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的。实验结果显示,PASS-JOIn-k算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升。
机译:相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注。研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在PASS-JOIn算法的基础上,提出了一个新的PASS-JOIn-k算法。PASS-JOIn-k算法在长短字符串上都有很好的表现。该算法的主要思想是利用PASS-JOIn算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的。实验结果显示,PASS-JOIn-k算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号