首页> 中文会议>全国第八届计算语言学联合学术会议 >中文文本全文查重的实验研究

中文文本全文查重的实验研究

摘要

互联网中大量的重复文本不仅给信息检索带来了诸多不便,而且也是对知识产权的侵犯.本文主要通过实验研究中文文本查重的两个因素:(1)特征字的因素,即分别选取高频字(包括逗号和句号)、中频字和低频字作为特征字对全文查重的影响;(2)位置的因素,即对比文本等分位置和其他位置分别作用于全文查重的效果.实验结果表明,当选取全文五等分位置时,F-measure可以达到100%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号