首页> 美国卫生研究院文献>Scientific Reports >Combined Mapping of Multiple clUsteriNg ALgorithms (COMMUNAL): A Robust Method for Selection of Cluster Number K
【2h】

Combined Mapping of Multiple clUsteriNg ALgorithms (COMMUNAL): A Robust Method for Selection of Cluster Number K

机译:多个聚类算法的组合映射(公共):选择簇数K的稳健方法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

In order to discover new subsets (clusters) of a data set, researchers often use algorithms that perform unsupervised clustering, namely, the algorithmic separation of a dataset into some number of distinct clusters. Deciding whether a particular separation (or number of clusters, K) is correct is a sort of ‘dark art’, with multiple techniques available for assessing the validity of unsupervised clustering algorithms. Here, we present a new technique for unsupervised clustering that uses multiple clustering algorithms, multiple validity metrics, and progressively bigger subsets of the data to produce an intuitive 3D map of cluster stability that can help determine the optimal number of clusters in a data set, a technique we call COmbined Mapping of Multiple clUsteriNg ALgorithms (COMMUNAL). COMMUNAL locally optimizes algorithms and validity measures for the data being used. We show its application to simulated data with a known K, and then apply this technique to several well-known cancer gene expression datasets, showing that COMMUNAL provides new insights into clustering behavior and stability in all tested cases. COMMUNAL is shown to be a useful tool for determining K in complex biological datasets, and is freely available as a package for R.
机译:为了发现数据集的新子集(集群),研究人员经常使用执行无监督聚类的算法,即将数据集从算法上分离为一定数量的不同聚类。确定特定的分隔(或簇的数量,K)是否正确是一种“黑暗技术”,可以使用多种技术来评估无监督聚类算法的有效性。在这里,我们介绍了一种用于无监督聚类的新技术,该技术使用多个聚类算法,多个有效性指标以及数据的逐步更大子集,以生成直观的3D聚类稳定性图,可以帮助确定数据集中最佳的聚类数量,我们将这种技术称为多重集群算法的组合映射(COMMUNAL)。 COMMUNAL在本地优化所使用数据的算法和有效性度量。我们展示了其在已知K值的模拟数据上的应用,然后将该技术应用于几个著名的癌症基因表达数据集,表明COMMUNAL在所有测试案例中均提供了有关聚类行为和稳定性的新见解。 COMMUNAL被证明是确定复杂生物数据集中K的有用工具,可作为R的软件包免费获得。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号