首页> 中文期刊> 《计算机工程与应用》 >基于混合策略的中文短文本相似度计算

基于混合策略的中文短文本相似度计算

         

摘要

为提高中文短文本相似度计算的准确率,提出一种新的基于混合策略的中文短文本相似度计算方法.首先,根据词语的语义距离,利用层次聚类,构建短文本聚类二叉树,改进传统的向量空间模型(VSM),计算关键词加权的文本相似度.然后,通过提取句子的主干成分对传统的基于语法语义模型的方法进行改进,得到文本主干的语义相似度;最后,对两种相似度进行加权,计算最终的文本相似度.实验结果表明,提出的方法在短文本相似度计算方面准确性更高,更加适合人们的主观判断.%In order to improve the accuracy of Chinese short text similarity computation, it proposes a new similarity com-putation method for Chinese short text based on hybrid strategy. Firstly, according to the semantic distance of words, by using of hierarchical clustering, it constructs the short text clustering binary tree, and the traditional Vector Space Model (VSM)is improved, the keyword weight text similarity is computed. Then, this paper improves traditional syntax semantic model and computes the semantic similarity of the short text by extracting principal component of sentences. Finally, the two similarities are weighted to calculate the final text similarity. The experimental results show that the proposed method gets better performance in effectiveness and is closer to people's judgment.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号