聚类分析算法研究及其在数据密集型计算环境下的实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当前，在聚类分析中仍然存在准确性和完备性方面的不足，也没有哪种算法能够同时适用于应用的各个方面且都是有效的。在高性能计算方面，主要面临着由于大数据集（数据密集型计算环境下的数据）而带来的挑战。这些大数据集一般具有海量、高速变化、分布、异构、半结构化或非结构化的特点。对于这样的数据，传统的数据挖掘算法已经不能满足其处理要求，逐渐成为数据处理技术中的瓶颈问题。
　　本文通过对基于熵的模糊聚类算法（EFC）和中心点聚类算法的研究，提出了一种改进的基于熵的中心聚类算法（Improved Entropy-based Central Clustering Algorithm，IECC算法）。该算法首先通过EFC算法得到差异性十分明显的原始数据集的簇心，再以得到的簇心为中心再次进行聚类分析，通过各点到各中心的距离将各点重新分配到以各中心所代表的集合中。改进的算法不仅可以得到紧凑且差异明显的聚类结果，还可以使聚类结果的准确率得到有效提高。为了适应数据密集型计算环境下的数据处理要求，本文又提出一种将改进的基于熵的中心聚类算法（IECC算法）在 Hadoop分布式平台上实现的可行性方案。具体的实现主要分为三个阶段即 Map、Combine和Reduce阶段，在分节点上主要是Map的过程，该过程只需要得到差异性十分明显的原始数据集的簇心以及相应的离群点，将其看作是该节点上的代表点；再经过Combine阶段，把分节点上得到的簇心和离群点相关信息传到主节点上，通过Combine合并相同簇心；最后，在主节点上执行IECC算法，即对Combine过程处理过的数据执行IECC算法，得出最终聚类结果。由于数据密集型计算的发展和其数据的独特特点，将新提出的算法在数据密集型计算环境下实现，有利于其解决数据密集型计算环境下数据分析和挖掘的问题。

著录项

作者
张树森;
展开▼
作者单位

山东理工大学;

展开▼
授予单位山东理工大学;
学科计算机科学与技术
授予学位硕士
导师姓名张龙波,李盘靖;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
聚类分析算法; 数据密集型计算; Hadoop分布式平台; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 数据密集型计算环境下离群点挖掘算法设计与实现 [J] . 陈亚丽 ,张龙波 ,李彩虹 . 山东理工大学学报（自然科学版） . 2013,第005期
2. 数据密集型计算环境下的离群点挖掘算法 [J] . 陈亚丽 ,张龙波 ,张树森 . 计算技术与自动化 . 2015,第002期
3. 云计算环境下混合加密算法研究与实现 [J] . 王宏波 ,蒋淑玲 . 信息记录材料 . 2017,第007期
4. I-Miner环境下聚类分析算法研究与实现 [J] . 徐德 ,谭维 ,杨燕 . 现代计算机（专业版） . 2009,第002期
5. 云计算环境下的数据挖掘算法研究 [J] . 张健 . 电脑编程技巧与维护 . 2021,第003期
6. 云计算环境下面向数据密集型应用的数据布局策略与方法 [C] . 郑湃 ,崔立真 ,王海洋 . 第27届中国数据库学术会议 . 2010
7. 数据密集型计算环境下数据分类算法研究 [A] . 邓齐志 . 2013

聚类分析算法研究及其在数据密集型计算环境下的实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅