聚类在数据挖掘领域应用广泛,但是传统的K-Means聚类算法存在对初始聚类中心点敏感以及需要人工设定聚类个数K等问题。针对这些问题,在进行评论文本特征词聚类的过程中,提出了一种改进的K-Means聚类算法,综合利用距离和密度来选择初始聚类中心点,并利用评测标准来确定聚类的个数K。此外,在聚类过程中,提出了利用基于知网的相似度计算修正相似度矩阵,以及利用成对约束规则来提高聚类的准确度。实验证明,提出的方法是切实有效的。%This paper presents an improved K-Means clustering algorithm,the comprehensive utilization of distance and density to select the initial cluster centers,and use metrics to determine the poly the number of classes.In addition,the clus-tering process.The paper also proposes the use of the calculation of correction based on similarity HowNet similarity matrix, and the use of pair wise constraint rules to improve the accuracy of clustering.
展开▼