首页> 中文期刊> 《计算机仿真》 >一种用于中文文本查重的双因子相似度算法

一种用于中文文本查重的双因子相似度算法

     

摘要

为了提高搜索引擎的检索效率以及加强知识产权保护,结合汉语语言学以及自然语言处理的研究成果,提出了一种用于中文文本查重的算法.通过引入"动词中心词"的概念,扩展停用词的范围,将文本中的部分动词组成动词序列作为文本特征串,结合串匹配算法,计算出中文文本间语法相似性.同时根据IFIDF方法提取文本特征并进行权重计算,计算出中文文本间的语义相似性.结合文本间语法相似性和语义相似性得到文章的相似度,可以判断两篇中文内容的相似性,有效地进行重稿检测.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号