首页> 美国卫生研究院文献>other >Sam2bam: High-Performance Framework for NGS Data Preprocessing Tools
【2h】

Sam2bam: High-Performance Framework for NGS Data Preprocessing Tools

机译:Sam2bam:NGS数据预处理工具的高性能框架

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。
获取外文期刊封面目录资料

摘要

This paper introduces a high-throughput software tool framework called sam2bam that enables users to significantly speed up pre-processing for next-generation sequencing data. The sam2bam is especially efficient on single-node multi-core large-memory systems. It can reduce the runtime of data pre-processing in marking duplicate reads on a single node system by 156–186x compared with de facto standard tools. The sam2bam consists of parallel software components that can fully utilize multiple processors, available memory, high-bandwidth storage, and hardware compression accelerators, if available. The sam2bam provides file format conversion between well-known genome file formats, from SAM to BAM, as a basic feature. Additional features such as analyzing, filtering, and converting input data are provided by using plug-in tools, e.g., duplicate marking, which can be attached to sam2bam at runtime. We demonstrated that sam2bam could significantly reduce the runtime of next generation sequencing (NGS) data pre-processing from about two hours to about one minute for a whole-exome data set on a 16-core single-node system using up to 130 GB of memory. The sam2bam could reduce the runtime of NGS data pre-processing from about 20 hours to about nine minutes for a whole-genome sequencing data set on the same system using up to 711 GB of memory.
机译:本文介绍了一种称为sam2bam的高通量软件工具框架,该框架使用户能够显着加快下一代测序数据的预处理。 sam2bam在单节点多核大内存系统上特别有效。与事实上的标准工具相比,在标记单节点系统上的重复读取时,它可以将数据预处理的运行时间缩短156–186x。 sam2bam由并行软件组件组成,这些组件可以充分利用多个处理器,可用内存,高带宽存储以及硬件压缩加速器(如果有)。 sam2bam提供了从SAM到BAM的知名基因组文件格式之间的文件格式转换,这是其基本功能。使用插件工具(例如重复标记)可提供其他功能,例如分析,过滤和转换输入数据,这些工具可以在运行时附加到sam2bam。我们证明,对于使用多达130 GB内存的16核单节点系统上的整个外显子数据集,sam2bam可以将下一代测序(NGS)数据预处理的运行时间从大约2小时减少到大约1分钟。记忆。对于在同一系统上使用多达711 GB内存的全基因组测序数据集,sam2bam可以将NGS数据预处理的运行时间从大约20小时减少到大约9分钟。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号