首页> 中文期刊>电子与信息学报 >一种基于EMD的文档语义相似性度量

一种基于EMD的文档语义相似性度量

     

摘要

针对基于EMD(Earth Mover's Distance)的文档语义相似性算法不满足度量公理因而难以在信息检索与数据挖掘中推广应用的问题,该文提出了一种新的基于EMD的文档语义相似性度量--Mdss EMD(Metric fordocument semantic similarity based EMD).首先在分析EMD及现有改进方法缺陷的基础上,给出了文档宽度、虚拟项的概念;随后通过增加虚拟项来对齐文档矢量的总权值,使所有度量公理得到满足;最后,为提高该度量的适应能力及处理速度,还实现了虚拟项相似距离的弹性设计并对EMD算法进行了简化.该方法把EMD扩展到度量空间中来,很大程度上提高了EMD的索引能力与精度,初步实验表明,Mdss EMD的整体性能优于原EMD及现有其它类似方法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号