首页> 中文期刊>计算机应用 >汉字关联性量化方法及其在文本相似性分析中的应用

汉字关联性量化方法及其在文本相似性分析中的应用

     

摘要

文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题.探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路.首先定义了文本中汉字与汉字之间关系的量化方法,提出汉字关联度的概念,然后构造汉字关联度矩阵来表示汉语文本,并设计了一种基于汉字关联度矩阵的汉语文本相似性度量算法.实验结果表明,汉字关联度优于二字词词频、互信息、T检验等统计量.由于无需汉语分词,本算法适用于海量中文信息处理.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号