首页> 中文期刊> 《成都大学学报:自然科学版》 >基于N-Gram和动态滑动窗口的改进余弦相似度算法研究

基于N-Gram和动态滑动窗口的改进余弦相似度算法研究

         

摘要

为了解决余弦相似度算法进行数据清洗时重复与相似的数据会使计算量呈几何级增长的问题,提出了基于N-Gram和动态滑动窗口的改进余弦相似度算法.首先通过计算每条数据的N-Gram值,并对数据进行相似度排序,然后定义初始滑动窗口,其窗口值根据N-Gram值的方差动态调整,最后在每个窗口中根据相似度与阀值判断相似数据.实验结果表明,改进的余弦相似度算法在运行速度上有大幅度提高,数据清洗准确率也得到提升,且该算法适用于海量数据的情形.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号