首页> 外文会议>Machine learning and data mining in pattern recognition >Efficient Clustering of Web-Derived Data Sets
【24h】

Efficient Clustering of Web-Derived Data Sets

机译:Web衍生数据集的有效聚类

获取原文
获取原文并翻译 | 示例

摘要

Many data sets derived from the web are large, high-dimensional, sparse and have a Zipfian distribution of both classes and features. On such data sets, current scalable clustering methods such as streaming clustering suffer from fragmentation, where large classes are incorrectly divided into many smaller clusters, and computational efficiency drops significantly. We present a new clustering algorithm based on connected components that addresses these issues and so works well on web-type data.
机译:来自网络的许多数据集都是大型,高维,稀疏的,并且具有类和特征的Zipfian分布。在这样的数据集上,当前的可伸缩聚类方法(例如流聚类)存在碎片化的问题,其中大类被错误地划分为许多较小的聚类,并且计算效率显着下降。我们提出了一种基于连接组件的新聚类算法,该算法可以解决这些问题,因此可以很好地处理网络类型的数据。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号