首页> 外文会议>Advances in information retrieval. >Full and Mini-batch Clustering of News Articles with Star-EM
【24h】

Full and Mini-batch Clustering of News Articles with Star-EM

机译:使用Star-EM的新闻文章的完整和小批量群集

获取原文
获取原文并翻译 | 示例

摘要

We present a new threshold-based clustering algorithm for news articles. The algorithm consists of two phases: in the first, a local optimum of a score function that captures the quality of a clustering is found with an Expectation-Maximization approach. In the second phase, the algorithm reduces the number of clusters and, in particular, is able to build non-spherical-shaped clusters. We also give a mini-batch version which allows an efficient dynamic processing of data points as they arrive in groups. Our experiments on the TDT5 benchmark collection show the superiority of both versions of this algorithm compared to other state-of-the-art alternatives.
机译:我们提出了一种新的基于阈值的新闻文章聚类算法。该算法由两个阶段组成:在第一阶段中,使用期望最大化方法找到捕获聚类质量的得分函数的局部最优。在第二阶段,该算法减少了簇的数量,特别是能够构建非球形的簇。我们还提供了一个迷你批处理版本,该版本允许在数据点成组到达时对其进行有效的动态处理。我们在TDT5基准测试集合上进行的实验表明,与其他最新技术相比,该算法的两个版本均具有优越性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号