document handling; parallel processing; pattern clustering; Hadoop; Mahout; Reuters dataset; TF-IDF; Wikipedia; cluster quality improvement; cluster quality measurement; cluster size reduction; document clustering; execution time; feature weighting; intercluster distance value maximization; k-means algorithm; minimum intracluster distance value; modified cosine distance measure; object similarity analysis; performance metric; sequence file size reduction; Algorithm design and analysis; Clustering algorithms; Encyclopedias; Internet; Size measurement; Time measurement; Vectors; Document Clustering; Hadoop; K-means; Mahout;
机译:基于高斯函数加权距离测度的改进的粗糙k均值聚类算法
机译:Hadoop并行框架下的大数据挖掘改进的K-means聚类算法
机译:基于K-means算法的文本文档聚类中相似度和相异度度量的广泛研究
机译:使用MAHOUT与Hadoop使用修改余弦距离测量的改进的K-means算法
机译:使用HadoopCL在异构集群上加速Mahout。
机译:初始簇质心的确定是否提高了K-Means聚类算法的性能?应用研究中遗传算法最小生成树和分层聚类的三种混合方法的比较
机译:基于Hadoop平台的改进K均值聚类算法在图像检索系统中的研究与实现。