首页> 外文期刊>JMLR: Workshop and Conference Proceedings >Clustering Semi-Random Mixtures of Gaussians
【24h】

Clustering Semi-Random Mixtures of Gaussians

机译:聚类高斯半随机混合

获取原文
       

摘要

Gaussian mixture models (GMM) are the most widely used statistical model for the k-means clustering problem and form a popular framework for clustering in machine learning and data analysis. In this paper, we propose a natural robust model for k-means clustering that generalizes the Gaussian mixture model, and that we believe will be useful in identifying robust algorithms. Our first contribution is a polynomial time algorithm that provably recovers the ground-truth up to small classification error w.h.p., assuming certain separation between the components. Perhaps surprisingly, the algorithm we analyze is the popular Lloyd’s algorithm for k-means clustering that is the method-of-choice in practice. Our second result complements the upper bound by giving a nearly matching lower bound on the number of misclassified points incurred by any k-means clustering algorithm on the semi-random model.
机译:高斯混合模型(GMM)是用于k均值聚类问题的最广泛使用的统计模型,它构成了机器学习和数据分析中聚类的流行框架。在本文中,我们为k均值聚类提出了一种自然的鲁棒模型,该模型推广了高斯混合模型,并且我们认为这对识别鲁棒算法很有用。我们的第一个贡献是多项式时间算法,该算法可在假设各组件之间存在一定间隔的情况下,以最小的分类误差w.h.p可靠地恢复地面真相。也许令人惊讶的是,我们分析的算法是流行的劳埃德k-均值聚类算法,这是实践中的选择方法。我们的第二个结果通过为半随机模型上的任何k均值聚类算法引起的错误分类点的数量提供了几乎匹配的下限,从而对上限进行了补充。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号