首页> 中文会议>2005第一届中国分类技术与应用研讨会(CSCA) >基于K-Means特征加权算法的大规模文本数据子空间聚类

基于K-Means特征加权算法的大规模文本数据子空间聚类

摘要

文本聚类是利用聚类技术对大量的文本数据进行分析,把内容相似的文本放在同一个集合.针对基于k-means特征加权算法用于文本子空间聚类的性能进行了一系列的实验研究与分析,并验证得出该算法具有可伸缩性与快速收敛性.文本子空间聚类算法的提出是针对文本数据的两大特点:高维与稀疏性.该算法基于传统的k-means聚类方法,将特征加权加入到k-means迭代的过程中.在聚类文本的同时,对文本集所包含的单词(特征)也进行聚类.特征加权对每一类的所有单词进行评估,并为每个单词赋予权重.这些权重值可用来从文本向量空间中鉴别出文本类别,并且为每一类别提取出相关联的可表达语义的重要特征单词.通过一系列的实际数据实验,得出以下结论:该算法聚类精度高;随着文档数目、单词数目和类别数目的变化,该算法的时间复杂度呈线性变化;同时该算法能快速收敛。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号