...
首页> 外文期刊>BMC Bioinformatics >PyBDA: a command line tool for automated analysis of big biological data sets
【24h】

PyBDA: a command line tool for automated analysis of big biological data sets

机译:PYBDA:大生物数据集自动分析的命令行工具

获取原文
   

获取外文期刊封面封底 >>

       

摘要

BACKGROUND:Analysing large and high-dimensional biological data sets poses significant computational difficulties for bioinformaticians due to lack of accessible tools that scale to hundreds of millions of data points.RESULTS:We developed a novel machine learning command line tool called PyBDA for automated, distributed analysis of big biological data sets. By using Apache Spark in the backend, PyBDA scales to data sets beyond the size of current applications. It uses Snakemake in order to automatically schedule jobs to a high-performance computing cluster. We demonstrate the utility of the software by analyzing image-based RNA interference data of 150 million single cells.CONCLUSION:PyBDA allows automated, easy-to-use data analysis using common statistical methods and machine learning algorithms. It can be used with simple command line calls entirely making it accessible to a broad user base. PyBDA is available at https://pybda.rtfd.io.
机译:背景:分析大型和高维生物数据集由于缺乏扩展到数亿数据点的可访问工具,分析大型和高维生物数据集对生物信息管理员进行了显着的计算困难。结果:我们开发了一种名为PYBDA的新型机器学习命令行工具,用于自动分布式,分布式大生物数据集分析。通过在后端使用Apache Spark,PyBDA将数据集扩展为超出当前应用程序大小的数据集。它使用Snakemake来自动将作业自动调整到高性能计算群集中。我们通过分析基于图像的RNA干扰数据的1.5亿单个单元的RNA干扰数据来展示软件.CONCLUSEUSE:PYBDA允许使用常用统计方法和机器学习算法自动化,易于使用的数据分析。它可以与简单的命令行呼叫,完全使其可访问广泛的用户群。 Pybda可在https://pybda.rtfd.io上使用。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号