首页> 中国专利> 一种基因序列比对的云计算加速方法

一种基因序列比对的云计算加速方法

摘要

本发明公开了一种基因序列比对的云计算加速方法,包括步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在诸如HDFS、Amazon、S3等分布式文件系统。本发明采用一种更简单的方式将比对工具运行在Spark框架上,不仅可以很好的利用Spark的机制进行多机计算的调度、数据的分发、监控和容错,而且相较于JNI的实现方式,开发门槛低,代码维护简单,性能更好,扩展性可接近线性。

著录项

  • 公开/公告号CN107704728B

    专利类型发明专利

  • 公开/公告日2021-01-19

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201710880756.3

  • 发明设计人 董守斌;刘柽;张铃启;

    申请日2017-09-26

  • 分类号G16B30/10(20190101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人冯炳辉

  • 地址 510006 广东省广州市番禺区广州大学城华南理工大学

  • 入库时间 2022-08-23 11:29:25

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号