首页> 中文学位 >基于Hadoop的全基因组关联研究系统设计与实现
【6h】

基于Hadoop的全基因组关联研究系统设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景

1.2研究目的与内容

1.3论文结构

第二章 相关知识

2.1 GWAS相关知识

2.2 Hadoop平台介绍

2.3本章小结

第三章 系统组成与原理

3.1 CloudAssoc总体结构

3.2数据预处理模块

3.3基因填补模块

3.4关联分析模块

3.5本章小结

第四章 软件并行化实现

4.1软件并行化方法研究

4.2 IMPUTE2的基本模型

4.3 IMPUTE2的并行化实现

4.4 SNPTESTv2的并行化实现

4.5本章小结

第五章 实验与结果分析

5.1实验目的

5.2实验环境

5.3实验数据准备

5.4实验内容与结果分析

5.5本章小结

第六章 总结与展望

6.1总结

6.2展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

随着人类基因组精细图谱的发布,全基因组关联研究(Genome-wide association study,GWAS)得到了快速发展并成为研究人类复杂性疾病遗传因素的重要手段。基因填补(genotype imputation)能够增加研究数据中单核苷酸多态性(single nucleotide polymorphism,SNP)的密度,提高GWAS发现致病基因的能力,因此基于基因填补的GWAS方法得到了广泛应用。然而,这种方法目前在实际应用中存在着两方面的问题:(1)缺少综合的系统工具来完成整个GWAS的数据处理以及分析工作;(2)当前用于基因填补和关联检测的GWAS工具不能有效地应对由参考数据增加而导致的数据量和计算量大幅的增加。
  本文在对基于基因填补的GWAS方法和Hadoop平台进行研究的基础上,实现了一个基于Hadoop平台的全基因组关联研究系统——CloudAssoc,该系统主要包括数据预处理、基因填补和SNPs关联检测三个功能模块。数据预处理模块能够实现常用数据转换和质量控制功能;基因填补模块基于Hadoop平台设计实现,用于根据公共数据预测研究数据中没有分型的SNPs位点的基因型;关联检测模块同样基于Hadoop平台实现,用于对填补后的研究数据进行SNPs的关联检测。
  CloudAssoc能够提高GWAS效率的关键在于基因填补模块和关联检测模块的并行化实现。本文根据对基因填补软件IMPUTE2所用模型和算法的分析研究,使用分割数据分析区间的方法,将时间和资源消耗巨大的计算任务切分为众多在Hadoop集群上分布式执行的小任务,基于Hadoop streaming框架实现了基因填补的并行化;并采用类似的方法,实现了关联检测模块的并行化。
  本文最后对系统进行了测试。首先对CloudAssoc中并行化软件的可扩展性、高效性、运行时间与数据分割窗口大小的关系进行了测试。测试表明,系统中并行化软件具有接近线性的加速比,具有良好的可扩展性以及高效性。最后,对CloudAssoc进行了整体测试,测试结果表明本系统能够高效完成对全基因组数据的基于基因填补的GWAS分析。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号