首页> 中文会议>2017年全国高性能计算学术年会 >基于Spark的基因组数据分析流程的并行加速

基于Spark的基因组数据分析流程的并行加速

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来,二代基因测序技术的迅速发展使得测序平台产生的数据量大幅增长.以BWA、GATK等工具组成的二代测序数据分析流程在业内得到了广泛的使用.现有的数据处理工具和方法受限于并行扩展性差、难以移植等问题,无法满足大量基因组数据的处理需求.本文借助Spark平台对基因组数据分析流程进行并行和加速,在Spark上实现了BWA mem、Picard Mark Duplicate及GATK系列工具,构建了从FASTQ数据到raw variants的整个流程.以GATK best practice中的WGS流程为例,在天河Spark集群上对程序进行了性能测试.实验结果表明程序能够在24分钟内完成对47×FASTQ数据的WGS处理流.程序并行度达到2048核时,相比128核时具有7.25倍的性能提升.

著录项

来源
《2017年全国高性能计算学术年会》|2017年|243-250|共8页
会议地点合肥
作者
Wang Bingchen; 王炳琛; Li Xueqi; 李雪琦; Zhang Zhonghai; 张中海; Li Xu; 李旭; Tan Guangming; 谭光明;
展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类 TP311.131;
关键词
基因组数据; 分析流程; 并行加速; Spark平台;
入库时间 2022-08-17 10:13:02

相似文献

中文文献
外文文献
专利

1. 基于SPARK并行框架下大数据分析的食品安全追溯平台体系研究 [J] . 何子聪 ,郭靖雯 . 数码设计．CG WORLD . 2019,第015期
2. 基于Spark的并行图数据分析系统 [J] . 王虹旭 ,吴斌 ,刘旸 . 计算机科学与探索 . 2015,第009期
3. 基于Spark的流程对象并行数据挖掘的研究与实现 [J] . 郑雅飞1 ,杜韬1 ,朱连江2 . 数据挖掘 . 2016,第004期
4. 运用Spark加速实时数据分析 [J] . . 电脑编程技巧与维护 . 2015,第021期
5. 一种Spark下分布式DBN并行加速策略 [J] . 黄震 ,钱育蓉 ,于炯 . 微电子学与计算机 . 2018,第11期
6. 基于Spark技术的网络大数据分析平台搭建与应用 [C] . 詹义 ,方媛 ,陈彦名 . 中国移动通信集团设计院第20届新技术论坛 . 2014
7. 基于Spark计算的实时数据分析的应用研究 [A] . 陈剑 . 2020

基于Spark的基因组数据分析流程的并行加速

摘要

著录项

相似文献

相关主题

期刊订阅