基于云平台的数据挖掘并行算法研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的不断创新，数据已然呈现出爆炸式增长的态势，互联网产业正面临着从IT到DT的巨大转变。如何提高挖掘海量数据背后所隐藏知识的能力，成为现阶段的一个难题。分布式计算架构的出现为海量数据挖掘提供了新的解决方案，将传统的数据挖掘算法迁移到云平台进行并行化改进，可使得处理数据的效率大大提高。
　　本文从传统的数据挖掘算法无法应对海量数据挖掘的缺陷出发，研究了现阶段较为热门的开源分布式并行计算框架如Hadoop、Spark等，然后将传统的数据挖掘算法进行并行化改进，并将其移植到云平台上，利用云平台提升数据挖掘算法的计算能力，使之具有良好的可扩展性。主要工作有以下几个方面：
　　（1）基于密度的聚类算法DBSCAN并行化改进。现有的并行DBSCAN算法在进行数据分区时，通常是将原始数据库划分为若干个互不相交的子空间，随着数据维度的增加，对高维空间的切分与合并将消耗大量的时间。针对这一问题，本文提出了改进的并行基于密度的聚类算法(S_DBSCAN)，并在Spark上具体实现。经实验表明，改进的S_DBSCAN算法在保证一定正确聚类结果的同时，具有更好的运行效率与可扩展性。
　　（2）局部加权回归LWLR算法并行化改进。现有的并行L_WLR算法，在进行近邻搜索时，采取的是遍历数据集中所有对象的方法，使得算法的效率较低。针对这一问题，本文提出了一种基于改进近邻搜索策略的TLWLR算法，经实验表明，改进的T_LWLR算法具有良好的可扩展性，同现有的并行KNN-LWLR算法相比，T_LWLR算法具有更短的运行时间，算法的运行效率得到了提升。
　　（3）基于云平台的数据挖掘分析系统的设计与实现。在改进的S_DBSCAN与T_LWLR算法的基础上设计并实现一个数据挖掘分析系统。用户可根据具体的应用场景，通过简单的参数配置来进行挖掘分析工作，并在系统中对改进的算法进行了具体的应用。

著录项

作者
罗晓宇;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机技术
授予学位硕士
导师姓名陈爱国;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
数据挖掘; 并行算法; 密度聚类算法; 局部加权回归; 近邻搜索策略;

相似文献

中文文献
外文文献
专利

1. 收割机远程监测系统的设计—基于云平台数据挖掘并行算法 [J] . 吴东林 ,张玉华 . 农机化研究 . 2020,第006期
2. 云平台下基于粗糙集的并行算法的研究 [J] . 李朋 ,刘天华 . 沈阳师范大学学报（自然科学版） . 2015,第002期
3. 基于并行算法的数据挖掘平台研究 [J] . 王霞 ,李文明 . 西安文理学院学报（自然科学版） . 2018,第006期
4. 一种基于动态调度的数据挖掘并行算法 [J] . 朱亚琼 ,罗伟 . 现代电子技术 . 2016,第015期
5. 基于G4ICCS系统的数据挖掘并行算法 [J] . 刘威 ,路来君 ,王洪肖 . 吉林大学学报（信息科学版） . 2013,第003期
6. 一种基于动态调度的数据挖掘并行算法 [C] . XIA Ling ,夏龄 . 2012全国高性能计算学术年会 . 2012
7. 基于云平台的混合式学习在高职教育中的研究与应用——以百会云平台为例 [A] . 马莉莉 . 2015

基于云平台的数据挖掘并行算法研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅