近年来,二代基因测序技术的迅速发展使得测序平台产生的数据量大幅增长.以BWA、GATK等工具组成的二代测序数据分析流程在业内得到了广泛的使用.现有的数据处理工具和方法受限于并行扩展性差、难以移植等问题,无法满足大量基因组数据的处理需求.本文借助Spark平台对基因组数据分析流程进行并行和加速,在Spark上实现了BWA mem、Picard Mark Duplicate及GATK系列工具,构建了从FASTQ数据到raw variants的整个流程.以GATK best practice中的WGS流程为例,在天河Spark集群上对程序进行了性能测试.实验结果表明程序能够在24分钟内完成对47×FASTQ数据的WGS处理流.程序并行度达到2048核时,相比128核时具有7.25倍的性能提升.
展开▼