首页> 外文会议> >Parallelizing clustering of geoscientific data sets using data streams

【24h】

Parallelizing clustering of geoscientific data sets using data streams

机译：使用数据流对地球科学数据集进行并行聚类

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Computing data mining algorithms such as clustering on massive geospatial data sets is still not feasible nor efficient today. In this paper, we introduce a k-means algorithm that is based on the data stream paradigm. The so-called partial/merge k-means algorithm is implemented as a set of data stream operators which are adaptable to available computing resources such as volatile memory and processing power. The partial data stream operator consumes as much data as can befit into RAM, and performs a weighted k-means on the data subset. Subsequently, the weighted partial results are merged by a second data stream operator. All operators can be cloned, and parallelized. In our analytical and experimental performance evaluation, we demonstrate that the partial/merge k-means can outperform a one-step algorithm by a large margin with regard to overall computation time and clustering quality with increasing data density per grid cell.

机译：如今，诸如在大量地理空间数据集上进行聚类之类的计算数据挖掘算法仍然不可行也不高效。在本文中，我们介绍了一种基于数据流范式的k-means算法。所谓的部分/合并k均值算法是作为一组数据流运算符实现的，这些运算符适用于诸如易失性存储器和处理能力之类的可用计算资源。部分数据流运算符会消耗尽可能多的数据以适应RAM，并对数据子集执行加权k均值。随后，第二数据流运算符将加权的部分结果合并。所有运算符都可以克隆和并行化。在我们的分析和实验性能评估中，我们证明了部分/合并k均值可以在总体计算时间和聚类质量（每网格单元数据密度增加）方面大大胜过一步算法。

著录项

来源
《》|2004年|p.73-84|共12页
会议地点
作者
Nittel; S.; Leung; K.T.;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类无线电电子学、电信技术;
关键词
pattern clustering; geophysics computing; scientific information systems; data mining; clustering parallelization; geoscientific data sets; data mining algorithms; data set clustering; massive geospatial data sets; data stream paradigm; partial merge k-means algorithm; volatile memory; processing power; partial data stream operator; RAM; weighted k-means; data subset; performance evaluation; one-step algorithm; computation time; data density; grid cell;

机译：模式聚类;地球物理计算;科学信息系统;数据挖掘;聚类并行化;地球科学数据集;数据挖掘算法;数据集聚类;大规模地理空间数据集;数据流范式;部分合并k均值算法;易失性存储器;处理能力;部分数据流算子; RAM;加权k-均值;数据子集;性能评估;一步算法;计算时间;数据密度;网格单元;

相似文献

外文文献
中文文献
专利

1. Extensible Parallel Query Porcessing for Exploratory Geoscientific Data Mining [J] . Eddie C. Shek, Richard R. Muntz, Edmond Mesrobian Data mining and knowledge discovery . 2001,第4期

机译：探索性地球科学数据挖掘的可扩展并行查询处理
2. Extensible Parallel Query Porcessing for Exploratory Geoscientific Data Mining [J] . Eddie C. Shek, Richard R. Muntz, Edmond Mesrobian Data mining and knowledge discovery . 2001,第4期

机译：探索性地球科学数据挖掘的可扩展并行查询处理
3. Online clustering of parallel data streams [J] . Juergen Beringer, Eyke Huellermeier Data & Knowledge Engineering . 2006,第2期

机译：并行数据流的在线群集
4. Parallelizing Clustering of Geoscientific Data Sets using Data Streams [C] . Silvia Nittel, Kelvin T. Leung International Conference on Scientific and Statistical Database Management . 2004

机译：使用数据流并行化地形数据集的聚类
5. Approximation algorithms for clustering streams and large data sets. [D] . O'Callaghan, Liadan Ita. 2003

机译：用于对流和大数据集进行聚类的近似算法。
6. Efficient clustering of large EST data sets on parallel computers [O] . Anantharaman Kalyanaraman, Srinivas Aluru, Suresh Kothari, 2003

机译：在并行计算机上高效地对大型EST数据集进行聚类
7. Parallelizing Clustering of Geoscientific Data Sets using Data Streams [O] . Silvia Nittel, Kelvin T. Leung 2004

机译：利用数据流并行化地球科学数据集的聚类
8. Parallel k-Means Clustering for Quantitative Ecoregion Delineation Using Large Data Sets. [R] . Kumar, J., Mills, R. T., Hoffman, F. M., 2011

机译：用大数据集进行定量生态区域划分的并行k均值聚类。

Parallelizing clustering of geoscientific data sets using data streams

摘要

著录项

相似文献

相关主题

期刊订阅