基于云计算的粗糙集属性约简的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

粗糙集理论(Rough Set)在上世纪末由欧洲著名的学者Pawlak Z，作为一种对进行数据分析和处理工具首次被概括归纳推出，它是一种用于描述具有不确定性、含糊性较高的数据的数学工具，已被用于很多方向的研究。例如，规则发现、序列模式发掘、文本数据分析、图像数据分析等。由于粗糙集可在保持分类决策能力不变的前提下，不需要额外提供所处理数据的任何先验信息，就能有效地分析出各种不精确的、不一致的、不完整的等各种不完备信息。粗糙集还可以对数据进行分析和推理，从其中挖掘出隐含在的属性间的依赖关系、重要性、导出简练的决策规则和分类规则。基于粗糙集的属性约简在数据分析处理的相关领域里有着不可磨灭的重要作用，因此关于它的学习和研究渐渐地成为一个全球性的焦点话题。随着大数据时代的脚步渐渐地临近，我们所面临的信息数据越来越丰富，这不仅仅表现在数据量上，还表现在数据维度上。在单机上的数据处理知识挖掘平台已经无法满足大数据时代对大量样本的储存以及处理的工作。
　　云计算相关概念技术的出现为海量异构数据的存储、知识分析挖掘的难题给出了有效的应对方法，分布式处理系统和并行编程框架，是云计算相关理论中重中之重的概念。本文在具体地描述了开源云平台Hadoop和并行编程模型的同时，基于并行编程模型对粗糙集属性约简在云环境下进行分析实现。本文的主要工作如下：
　　基于云平台Hadoop设计了一个数据分析的框架。这个框架采用B/S模式提供了Web页面形式的交互页面，使用者根据自己的要求，来提交相应的样本数据的分析和处理。Server端依据收到的任务，然后生成一系列相应的Hive命令，再之后将生成的Hive命令生成对应一系列MapReduce任务。Master节点根据相应的命令，对slaver节点产生相应的调度分配，将数据分析处理的任务放到云端执行。最后将分析处理后的结果数据汇总呈现用户。通过样本数的测试和根据对实验结果观察，本文设计的框架对海量异构数据的分析挖掘工作有较高的效率。
　　通过对并行算法的平均时间复杂性的分析，并行编程模型在很多程度上降低了算法的复杂性。通过样本集的逐步变大，对数据集的处理时间变化接近线性变化。为了进一步对本算效率，我们在程序执行过程中使用了Combiner，在本地对map过程的输出做优化降低输出量，进而减少了Reduce过程的输入量。最后利用一些样本集合证明了基于云计算的粗糙集属性约简算法是正确的、高效的。

著录项

作者
李朋;
展开▼
作者单位

沈阳师范大学;

展开▼
授予单位沈阳师范大学;
学科计算机应用技术
授予学位硕士
导师姓名刘天华;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
大数据; 云计算; 粗糙集; 属性约简; 并行算法;

相似文献

中文文献
外文文献
专利

1. 基于决策表的多粒度粗糙集属性约简研究 [J] . 赵思雨 ,钱婷 ,魏玲 . 陕西师范大学学报（自然科学版） . 2019 ,第003期
2. 基于代价敏感和近似分类质量的决策粗糙集属性约简研究 [J] . 陈婉清 ,秦亮曦 . 计算机应用研究 . 2019 ,第004期
3. 基于粗糙集的大型养路机械故障属性约简应用研究 [J] . 黄瑜 ,朱红岗 . 电子测试 . 2019 ,第011期
4. 基于粗糙集属性约简构建决策树的研究 [J] . 贾玉虎 ,谢文琼 ,尤晨 . 钦州学院学报 . 2016 ,第010期
5. 基于粗糙集的数据挖掘改进属性约简算法研究 [J] . 卢秀芸 . 镇江高专学报 . 2015 ,第001期
6. 基于模糊粗糙集的属性约简增量方法研究 [C] . . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 基于粗糙集和模糊粗糙集的属性约简研究 [A] . 廖倩 . 2012

基于云计算的粗糙集属性约简的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅