首页> 中文学位 >面向大数据的高效数据挖掘算法研究
【6h】

面向大数据的高效数据挖掘算法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文工作及结构

第2章 大数据挖掘技术概述与分析

2.1 大数据挖掘概述

2.1.1 大数据概念与特点

2.1.2 数据挖掘的介绍

2.2 聚类技术

2.2.1 划分聚类

2.2.2 层次聚类

2.2.3 基于密度的聚类

2.3 海量数据处理技术

2.3.1 抽样技术

2.3.2 增量式技术

2.3.3 分布式技术

2.3.4 云计算

2.4 本章小结

第3章 基于增量式的核模糊聚类算法研究

3.1 增量式聚类模型

3.2 增量式核模糊聚类算法

3.3 改进的基于增量式的核模糊聚类算法

3.3.1 单个数据块初始聚类中心的优化

3.3.2 多个传递点的选取

3.3.3 改进算法的流程

3.4 实验结果与分析

3.4.1 数据集

3.4.2 数据划分方法

3.4.3 性能指标

3.4.4 结果与分析

3.5 本章小结

第4章 分布式k-means算法研究

4.1 分布式聚类模型

4.2 分布式k-means算法分析

4.3 改进的分布式k-means算法

4.3.1 局部聚类结果的改进

4.3.2 基于距离和分布的局部聚类结果合并的方法

4.3.3 改进的分布式k-means算法描述

4.4 实验结果与分析

4.4.1 与集中式k-means算法的比较

4.4.2 与K-Dmezns算法的比较

4.5 本章小结

第5章 结论与展望

5.1 本文工作总结

5.2 不足与展望

参考文献

攻读硕士期间学位期间发表的论文及其它成果

致谢

展开▼

摘要

数据挖掘是分析和处理数据的重要方法,它可以从数据中挖掘出有价值的信息,为决策者提供决策支持。近几年来,随着信息技术的发展,人们每天产生的数据量正以前所未有的速度增长和累积。巨大的数据量及复杂的数据类型,对已有的数据挖掘算法提出了新的挑战。特别是大数据概念的提出,由于其具有数据量大、多样性、高效性等特点,传统的数据挖掘算法受限于内存、效率、扩展性等因素而无法有效地处理大数据。如何更加高效地处理大数据,从中挖掘所需的信息,成为当前研究大数据的热点。
  目前,对大数据挖掘的研究,主要还是依赖于海量数据的处理技术。这些技术主要包括抽样技术、增量式技术、分布式技术、云计算等。聚类分析在数据挖掘占有重要地位,在实际中有着广泛的应用。本文把面向大数据的聚类算法作为研究对象,重点研究了基于增量式的聚类算法和基于分布式的聚类算法。
  在增量式聚类中,分析了单个数据块的聚类结果质量和数据块之间聚类信息的传递对最终结果的影响,并提出了改进方法,提高聚类精度。对于单个数据块,通过优化初始聚类中心,来提高聚类结果质量。对于数据块之间信息的传递,通过选取多个传递点,以传递更加精确的信息。分布式聚类可以分为局部聚类阶段和全局聚类阶段。在现有的算法中,局部聚类阶段数据块之间几乎没有信息交流,容易出现局部聚类信息丢失的现象。本文通过向各数据块传递所有局部聚类结果的方式,重新对各数据块聚类,修正局部聚类结果,以得到更纯的子类。全局聚类阶段是对局部结果的合并,本文通过综合考虑局部结果之间的距离差异性和分布差异性,改进了合并方法。最后,在典型的数据集上验证了算法,并与其它的算法进行了对比。实验证明,这两种改进算法均是可行和有效的,而且提高了聚类精度。

著录项

  • 作者

    刘少龙;

  • 作者单位

    华北电力大学;

    华北电力大学(北京);

  • 授予单位 华北电力大学;华北电力大学(北京);
  • 学科 计算机科学与技术;计算机应用技术
  • 授予学位 硕士
  • 导师姓名 林碧英;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    大数据; 数据挖掘; 聚类算法; 增量式技术; 分布式技术;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号