首页> 中文期刊>情报探索 >基于《现代汉语词典》语义空间的中文文本语义相似度研究

基于《现代汉语词典》语义空间的中文文本语义相似度研究

     

摘要

[目的/意义]针对现有基于向量空间模型(VSM)的中文文本语义相似度计算方法存在空间维度高、数据表示高稀疏性等问题,提出基于《现代汉语词典》汉语语义向量空间构建以及中文文本语义相似度计算方法.[方法/过程]利用分词系统ICTCLAS对《现代汉语词典》中词汇解释条目的文本进行分词、词性标注,依据基底词汇选取原则,经过过滤、解释、替换等操作后,选择出能解释所有中文词汇意义的基底词汇集合,并以此建立汉语语义空间.词汇间的相似度可通过计算词汇向量间的夹角余弦值来获得;中文文本的相似度则可以通过计算中文文本特征语义向量之间的夹角余弦值来得到.[结果/结论]与传统VSM方法和TF-IDF方法相比,实验结果表明本方法获得了较好的准确率和召回率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号