首页> 中文学位 >基于AWS云平台GPU集群加速的Apriori算法的研究和应用
【6h】

基于AWS云平台GPU集群加速的Apriori算法的研究和应用

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2 研究意义

1.3 国内外研究现状

1.4 本文研究内容

1.5 本文组织结构

1.6 本章小结

2 相关研究综述

2.1 Apriori算法介绍

2.1.1 经典Apriori算法相关定义

2.1.2 Apriori算法关联规则的挖掘步骤

2.2 GPU通用计算与CUDA

2.2.1 CUDA编程模型

2.2.2 CUDA存储器模型

2.3 GPU集群介绍

2.4 云计算和AWS

2.4.1 云计算基础概念

2.4.2 亚马逊云服务(Amazon Web Services,AWS)

2.5 本章小结

3 基于AWS云平台GPU集群的Apriori算法设计和实现

3.1 Apriori算法对于数值型事务数据的处理

3.2 总体架构设计

3.2.1 Apriori算法分析

3.2.2 总体并行优化设计

3.3 AWS平台GPU集群架构的设计与搭建

3.3.1 GPU集群设计

3.3.2 GPU集群搭建

3.4 Apriori算法进程间并行改进与实现

3.4.1 任务分配负载均衡

3.4.2 进程间通信方式MPI

3.4.3 候选项集的生成与剪枝

3.5 Apriori算法进程内并行改进与实现

3.5.1 事务数据的拷贝

3.5.2 候选频繁项集支持计数

3.6 实验与分析

3.6 本章小结

4 基于AWS GPU集群加速的Apriori算法的应用

4.1 大数据医疗趋势以及乳腺癌诊断应用的需求分析

4.2 乳腺癌肿瘤类型诊断应用总体设计

4.3 乳腺癌医疗数据的收集与处理

4.4 使用Apriori算法进行关联规则挖掘

4.4.1 候选频繁项集支持计数

4.4.2 利用频繁项集生成关联规则

4.5 利用关联规则对乳腺癌患者进行诊断

4.6 乳腺癌诊断应用的实现

4.7 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

健康和疾病防控对每一个人都很重要,而大数据时代的到来,给生命科学和健康领域带来了机遇和挑战。对医疗数据的合理挖掘和使用,将发现临床症状、生活习惯、遗传等等因素和疾病之间的关联和规律。这将在临床辅助决策、疾病预测、个性化治疗等等领域起着决定性作用。
  Apriori算法是数据挖掘中最经典也是最常用的算法之一,然而对于海量规模的数据,数据挖掘所需要的计算量也迅速膨胀,Apriori算法过程变得十分耗时,很难满足人们的需求。如何加速Apriori算法效率,快速地从海量医疗数据中挖掘出有用的关联规则是一个需要解决的问题。传统的计算机集群技术可以很好的提高算法的效率并且具有较好的可扩展性,但是其过于高昂的成本以及复杂的架构使得其使用范围极其有限。相对于CPU来说,GPU有着更多的执行单元,使得GPU有着高性能的并行计算能力。通过GPU的并行计算能力的使用可以在成本较低的情况下得到较好的加速效果,但是主机中显卡数目的限制使得它可扩展性不高,很难应对应用需求越来越大的计算量。
  亚马逊云平台允许用户通过低廉的租用成本来使用海量的云计算资源,基于此,提出一种基于亚马逊云平台GPU集群加速的Apriori算法,该方法通过按需计费的方式来使用亚马逊的云计算资源,成本低廉;GPU实例中的G2实例包含高性能的NVIDIA GPU,具有很强的并行计算能力,可以带来良好的加速效果;亚马逊云服务提供弹性的计算能力,具有良好的可扩展性,可以应对应用的弹性需求。
  通过对Apriori算法的分析和并行化设计,提出了基于AWS云平台GPU集群的Apriori算法。其中解决了AWS中GPU集群的通信设计和搭建、数值型数据离散化和频繁项集的表示、Apriori算法的多节点多线程的并行设计、基于CUDA存储器模型的存储优化设计等一系列问题。通过实验得知,该算法具有较好的加速效果、较高的可扩展性,并且成本更加低廉。利用该算法,初步完成了一个乳腺癌疾病诊断应用,并取得了较好的效果。证实了本算法在大数据医疗中的可行性,为医疗领域中小企业和个人研究人员提供了一种低成本、高效率的解决方案。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号