首页> 中文会议>2017年全国高性能计算学术年会 >基于Spark的基因组数据分析流程的并行加速

基于Spark的基因组数据分析流程的并行加速

摘要

近年来,二代基因测序技术的迅速发展使得测序平台产生的数据量大幅增长.以BWA、GATK等工具组成的二代测序数据分析流程在业内得到了广泛的使用.现有的数据处理工具和方法受限于并行扩展性差、难以移植等问题,无法满足大量基因组数据的处理需求.本文借助Spark平台对基因组数据分析流程进行并行和加速,在Spark上实现了BWA mem、Picard Mark Duplicate及GATK系列工具,构建了从FASTQ数据到raw variants的整个流程.以GATK best practice中的WGS流程为例,在天河Spark集群上对程序进行了性能测试.实验结果表明程序能够在24分钟内完成对47×FASTQ数据的WGS处理流.程序并行度达到2048核时,相比128核时具有7.25倍的性能提升.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号