首页> 中文会议>信息系统协会中国分会第六届学术年会 >基于主题模型的K-means初始聚类中心优化方法

基于主题模型的K-means初始聚类中心优化方法

摘要

K-means聚类算法简单高效,适合处理大规模数据,在文本挖掘领域应用广泛,但算法对初始聚类中心的选择非常敏感.本文基于LDA主题模型提出一种优化K-means初始聚类中心的算法.首先通过LDA主题抽取降低文档特征向量维度,将文档映射到主题空间,通过文档的主题特征确定初始聚类中心的选择;然后,利用平均准确率、F-Score和熵作为文本聚类效果评价指标,对选取的初始聚类中心的聚类结果进行评价.选取标准的机器学习语料库20newsgroup中的数据集作为试验数据,实验结果表明该方法可以根据文本语义信息优化Kmeans初始聚类中心的选择,提高K-means文本聚类效果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号