首页> 外文期刊>Journal of statistical computation and simulation >Bayesian variable selection in clustering high-dimensional data via a mixture of finite mixtures
【24h】

Bayesian variable selection in clustering high-dimensional data via a mixture of finite mixtures

机译:通过有限混合物的混合物聚类高维数据的贝叶斯变量选择

获取原文
获取原文并翻译 | 示例

摘要

When clustering high-dimensional data, it is often important to identify variables that discriminate the clusters. Meanwhile, a common issue in clustering is to determine the number of clusters. In this study, we propose a new method that simultaneously performs clustering and variable selection, while inferring the number of clusters from the data. We formulate the clustering problem using a finite mixture model with a symmetric Dirichlet weights prior, while also placing a prior on the number of components. That is, we utilize a mixture of finite mixtures. We handle the variable selection problem by introducing a latent binary vector, which represents the inclusion/exclusion of variables. We update the binary vector for variable selection using a Metropolis algorithm and perform inference on the cluster structure using a split-merge Markov chain Monte Carlo technique. We demonstrate the advantage of our method using simulated and two real DNA microarray datasets.
机译:在聚类高维数据时,识别区分群集的变量通常很重要。 同时,聚类中的常见问题是确定群集的数量。 在本研究中,我们提出了一种同时执行群集和变量选择的新方法,同时推断来自数据的群集数。 我们使用有限的混合物模型制定群集问题,其先前具有对称的Dirichlet权重,同时还在组件的数量上放置。 也就是说,我们利用有限混合物的混合物。 我们通过引入潜在二进制向量来处理变量选择问题,这代表包含/排除变量。 我们使用Metropolis算法更新变量选择的二进制向量,并使用分离合并Markov链Monte Carlo技术对群集结构进行推断。 我们展示了使用模拟和两个真正的DNA微阵列数据集的方法的优势。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号