...
【24h】

High-Performance Genomic Analysis Framework with In-Memory Computing

机译:具有内存计算的高性能基因组分析框架

获取原文
获取原文并翻译 | 示例
           

摘要

In this paper, we propose an in-memory computing framework (called GPF) that provides a set of genomic formats, APIs and a fast genomic engine for large-scale genomic data processing. Our GPF comprises two main components: (1) scalable genomic data formats and API. (2) an advanced execution engine that supports efficient compression of genomic data and eliminates redundancies in the execution engine of our GPF. We further present both system and algorithmspecific implementations for users to build genomic analysis pipeline without any acquaintance of Spark parallel programming. To test the performance of GPF, we built a WGS pipeline on top of our GPF as a test case. Our experimental data indicate that GPF completes Whole-Genome- Sequencing (WGS) analysis of 146.9G bases Human Platinum Genome in running time of 24 minutes, with over 50% parallel efficiency when used on 2048 CPU cores. Together, our GPF framework provides a fast and general engine for largescale genomic data processing which supports in-memory computing.
机译:在本文中,我们提出了一种内存计算框架(称为GPF),其提供了一组基因组格式,API和用于大规模基因组数据处理的快速基因组发动机。我们的GPF包括两个主要组件:(1)可扩展的基因组数据格式和API。 (2)支持高效压缩基因组数据的高级执行引擎,并在我们的GPF的执行引擎中消除冗余。我们还进一步提出了系统和算法的实现,为用户建立基因组分析管道,而不会熟悉火花并行编程。为了测试GPF的性能,我们在GPF的顶部构建了一个WGS管道作为测试用例。我们的实验数据表明,GPF在24分钟的运行时间内完成了146.9g的全基因测序(WGS)分析146.9g的人铂基因组,在2048个CPU核上使用时具有超过50%的平行效率。我们的GPF框架在一起提供了一种快速和通用的发动机,用于支持内存计算的大型基因组数据处理。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号