首页> 中文期刊> 《计算机工程与设计》 >基于语义的中文文本聚类最佳簇数研究

基于语义的中文文本聚类最佳簇数研究

         

摘要

分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析.利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的丈本最佳聚类数算法CTBP,其主要思想是在文本向量集的每个文本向量中抽取出一个词汇,按相似度有序排列,用增量逐层划分以得到最优划分所对应的簇类数.这样通过扫描一遍数据就可以获得多个统计信息,最后求出最优解.实验结果表明了该算法的高质量和高效率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号