Scalable model-based clustering for large databases based on data summarization

Huidong Jin; Man-Leung Wong; Leung K.-S.

首页> 外文期刊>IEEE Transactions on Pattern Analysis and Machine Intelligence >Scalable model-based clustering for large databases based on data summarization

【24h】

Scalable model-based clustering for large databases based on data summarization

机译：基于数据汇总的可扩展的基于模型的大型数据库集群

获取原文

获取原文并翻译 | 示例

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

The scalability problem in data mining involves the development of methods for handling large databases with limited computational resources such as memory and computation time. In this paper, two scalable clustering algorithms, bEMADS and gEMADS, are presented based on the Gaussian mixture model. Both summarize data into subclusters and then generate Gaussian mixtures from their data summaries. Their core algorithm, EMADS, is defined on data summaries and approximates the aggregate behavior of each subcluster of data under the Gaussian mixture model. EMADS is provably convergent. Experimental results substantiate that both algorithms can run several orders of magnitude faster than expectation-maximization with little loss of accuracy.

机译：数据挖掘中的可伸缩性问题涉及开发用于以有限的计算资源（例如内存和计算时间）处理大型数据库的方法。在本文中，基于高斯混合模型，提出了两种可扩展的聚类算法bEMADS和gEMADS。两者都将数据汇总到子群集中，然后根据其数据摘要生成高斯混合。他们的核心算法EMADS在数据摘要中定义，并在高斯混合模型下近似每个数据子集群的聚合行为。 EMADS可证明是收敛的。实验结果证实，两种算法的运行速度都比预期最大化快几个数量级，而准确性损失很小。

著录项

来源
《IEEE Transactions on Pattern Analysis and Machine Intelligence》 |2005年第11期|p.1710-1719|共10页
作者
Huidong Jin; Man-Leung Wong; Leung K.-S.;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类计算技术、计算机技术;
关键词
Gaussian processes; data mining; maximum likelihood estimation; pattern clustering; very large databases; Gaussian mixture model; data mining; data summarization; expectation-maximization; large databases; scalable model-based clustering; Gaussian mixture model; Ind;

机译：高斯过程;数据挖掘;最大似然估计;模式聚类;超大型数据库;高斯混合模型;数据挖掘;数据汇总;期望最大化;大型数据库;基于可伸缩模型的聚类;高斯混合模型;Ind;

相似文献

外文文献
中文文献
专利

1. SCALABLE PARALLEL BIG DATA SUMMARIZATION TECHNIQUE BASED ON HIERARCHICAL CLUSTERING ALGORITHM [J] . VERONICA S. MOERTINI, MATTHEW ARIEL Journal of Theoretical and Applied Information Technology . 2020,第21期

机译：基于分层聚类算法的可扩展并行大数据摘要技术
2. The Graph Signature: A Scalable Query Optimization Index for RDF Graph Databases Using Bisimulation and Trace Equivalence Summarization [J] . Jarrar Mustafa, Deik Anton International journal on Semantic Web and information systems . 2015,第2期

机译：图签名：使用双仿真和迹线等效汇总的RDF图数据库的可扩展查询优化索引
3. QuMinS: Fast and scalable querying, mining and summarizing multi-modal databases [J] . Robson L.F. Cordeiro, Fan Guo, Donna S. Haverkamp, Information Sciences: An International Journal . 2014,第Null期

机译：QuMinS：快速和可扩展的查询，挖掘和汇总多模式数据库
4. Scalable Clustering for Large High-Dimensional Data Based on Data Summarization [C] . Ying Lai, Orlandic, R., . 2007

机译：基于数据汇总的大型高维数据可伸缩聚类
5. Scalable model-based clustering algorithms for large databases and their applications. [D] . Jin, Huidong. 2002

机译：适用于大型数据库及其应用程序的基于模型的可伸缩群集算法。
6. Biomedical text summarization to support genetic database curation: using Semantic MEDLINE to create a secondary database of genetic information [O] . T. Elizabeth Workman, Marcelo Fiszman, John F Hurdle, 2010

机译：生物医学文本摘要以支持遗传数据库管理：使用语义MEDLINE创建遗传信息的辅助数据库
7. Scalable model-based clustering by working on data summaries [O] . Huidong Jin, Man-leung Wong 2003

机译：通过处理数据摘要来实现基于模型的可扩展集群
8. Incremental Model-Based Clustering for Large Datasets With Small Clusters [R] . Fraley, C. , Raftery, A. , Wehrensy, R. 2003

机译：基于增量模型的聚类适用于具有小集群的大型数据集

Scalable model-based clustering for large databases based on data summarization

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅