声明
1 绪论
1.1 论文研究背景及意义
1.2 国内外研究现状
1.2.1关联规则挖掘算法
1.2.2基于大数据分析平台的关联规则算法
1.3 论文主要研究内容
1.4本文组织结构
2 关联规则算法及Spark平台研究理论概述
2.1关联规则挖掘理论
2.2Apache Hadoop计算框架
2.2.1MapReduce计算框架
2.2.2分布式文件系统HDFS
2.3Apache Spark计算框架
2.3.1弹性分布式数据集RDD
2.3.2有向无环图DAG(Directed Acyclic Graph)
2.3.3Spark任务调度管理原理
2.3.4Spark平台的优势
2.4萤火虫算法概述
2.4.1萤火虫算法仿生原理
2.4.2萤火虫算法的数学定义
2.4.3算法的伪代码
2.5本章小结
3 关联规则算法改进及基于Spark平台并行化
3.1关联规则算法
3.1.1Apriori算法
3.1.2Apriori算法缺陷
3.1.3 基于加权萤火虫算法的关联规则挖掘
3.1.4改进的Apriori算法性能评价
3.2基于Spark分布式环境下关联规则挖掘算法
3.2.1并行计算
3.2.2Spark并行框架
3.2.3Apriori算法在Spark上的并行化
3.2.4YHC-Apriori算法在Spark上的并行化
3.3本章小结
4 实验设计及结果分析
4.1实验环境的搭建
4.1.1集群环境设置
4.1.2集群启动
4.2YHC-Apriori算法的实验与分析
4.2.1数据集
4.2.2Apriori与YHC-Apriori性能比较
4.3基于Spark的YHC-Apriori算法的实验与分析
4.3.1数据集
4.3.2不同数据集算法性能比较
4.3.3不同规模数据集算法性能比较
4.3.4不同集群规模算法性能比较
4.3.5测试改进算法加速比
4.3.6不同大数据平台实验情况
4.3.7不同支持度算法性能比较
4.4本章小结
5胃癌辅助诊断
5.1数据采集及预处理
5.1.1数据采集
5.1.2数据预处理
5.2关联规则挖掘
5.3可视化及结果分析
5.4本章小结
结论
致谢
参考文献
攻读学位期间的研究成果