首页> 外文期刊>Modern Applied Science >Entropy Based Measurement of Text Dissimilarity for Duplicate – Detection
【24h】

Entropy Based Measurement of Text Dissimilarity for Duplicate – Detection

机译:基于熵的文本相似度度量用于重复检测

获取原文
获取外文期刊封面目录资料

摘要

The problem of identifying approximate similarity between pair of strings is an essential step for data cleansing and data integration process. Most existing approaches have relied on generic or manually tuned distance metrics for estimating the similarity potential duplicate. But existing system does not produce the similarity percentage between pair of strings. In this paper we propose a method using entropy and information gain (IG) to find dissimilarity between pair of strings to increase the accuracy of data.
机译:识别字符串对之间的近似相似性的问题是数据清洗和数据集成过程中必不可少的步骤。大多数现有方法都依赖于通用或手动调整的距离量度来估计相似的潜在重复项。但是现有系统不会在字符串对之间产生相似度百分比。在本文中,我们提出了一种使用熵和信息增益(IG)的方法来查找字符串对之间的差异,以提高数据的准确性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号