首页> 中国专利> 一种基于容器技术的生物信息分析计算系统及方法

一种基于容器技术的生物信息分析计算系统及方法

摘要

本发明涉及一种基于容器技术的生物信息分析计算系统及方法,包括:Web交互模块:用户输入需要进行生物信息分析的原始数据以及提交分析任务;管理模块:用于在管控节点发出调配指令,创建用于进行分析计算的分析计算容器;计算模块:包括若干分析计算容器,用于根据用户输入的原始数据以及分析任务的内容进行分析计算,得出分析结果;存储模块:用于存储用户输入的原始数据以及计算模块得出的分析结果;数据交付平台:用于将分析结果形成报告交付给用户。本发明能够进一步提升基因数据分析计算的工业化标准化进程,以流水线式的模式分析,降低CPU、内存、存储、网络等资源资源的空闲成本,提升了效率。

著录项

  • 公开/公告号CN113326123A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 杭州绳武科技有限公司;

    申请/专利号CN202110484623.0

  • 发明设计人 余育超;朱晓文;

    申请日2021-04-30

  • 分类号G06F9/50(20060101);

  • 代理机构33235 杭州华知专利事务所(普通合伙);

  • 代理人束晓前

  • 地址 311121 浙江省杭州市余杭区仓前街道仓兴街1号37号楼二楼70号

  • 入库时间 2023-06-19 12:24:27

说明书

技术领域

本发明属于生物信息分析技术领域,具体涉及一种基于容器技术的生物信息分析计算系统及方法。

背景技术

生物信息分析计算主要指处理当今生物检测技术产生的大量原始生物数据(包括基因数据、蛋白数据等)。计算这些大数据需要使用专业的服务器进行计算,现有的计算技术方案主要是以下两种:

(1)本地架设服务器进行生物信息数据分析计算。 根据计算数据需求的不同,采购各种类型的服务器来搭建本地的计算平台。例如塔式服务器、机架式服务器等。这种技术方案存在单次投入成本高、可扩展性差、日常维护成本高、回本时间长等问题。

(2)购买云服务商提供的云服务器ECS、批量计算、高性能计算服务来进行生物信息数据计算。这种技术方案因为受行业整体发展领域比较前沿的制约,云服务商提供的这些服务存在行业适配度低,云计算资源浪费造成成本无较大优势的问题。

以上两种分析计算的生产模式是一种小作坊式的分析计算模式,更大的生产投入是建造更大的作坊。随着基因数据的爆发式增长,产能限制瓶颈会愈发突出。

且生物信息学分析包含的种类比较繁多,涉及到的分析软件多,开发语言也多(包括Perl、python、Java、R等)。故以往的技术方案是在服务器上安装尽可能多的操作系统,软件来满足分析需求。服务器的系统软件配置就比较复杂且不易于管理。

基因数据分析任务发生时,不同软件的开发逻辑不同,对服务器的CPU和内存要求都有不同需求。服务器的CPU和内存配比很难做到适应所有的需求。现有技术中是本地配置高性能的服务器,或者云端购买高性能的云服务器。在分析计算时,会造成大量的CPU浪费或者内存空闲,分析计算费用高居不下。

发明内容

为了解决上述问题,本发明提供了一种基于容器技术的生物信息分析计算系统及方法,能够进一步提升基因数据计算的工业化标准化进程,以流水线式的模式分析,降低CPU、内存、存储、网络等资源资源的空闲成本,提升了效率。

本发明的技术方案如下所示:

一种基于容器技术的生物信息分析计算系统,包括:

Web交互模块:用户输入需要进行生物信息分析的原始数据以及提交分析任务;

调控模块:根据用户提交的任务信息,拆分成各个类型的分析子任务,并创建用于分析计算的节点容器,实时监控处理各个任务数据状态,并对任务状态进行实时更新反馈;

计算分析模块:包括各种类型的生物信息分析计算容器,管理系统根据不同的分析子任务选择对应的容器,快速的部署用于分析计算的节点容器;

数据共享模块:用于保存各个任务节点容器运行所生成的数据;通过数据共享的模式,减少各个节点容器之间的数据传输,可以有效的降低任务执行时间,提升效率;

数据存储模块:用于存储用户输入的原始数据以及分析结果数据;

数据交付平台:用于将分析结果形成报告交付给用户。

优选的,所述分析计算容器利用docker技术根据不同的分析步骤时需求的系统环境和运行使用的软件不同,进行特异性的镜像构建封装,再根据封装后镜像的各种软件以及数据分析需求,配套相应的计算资源进行创建。

优选的,所述存储模块中包括用于数据长期存储及数据拷贝的对象存储服务器和用于接收拷贝数据并以此为中心,调用各类分析计算容器对数据进行分析处理的文件存储服务器。

本发明提供了一种基于容器技术的生物信息分析计算方法,包括以下步骤:

S1:用户在前端web的接口上传用于进行生物信息分析所需的原始数据;

S2:创建常驻小型管控服务器用于支持前端web交互以及发送管控调解指令;

S3:在前端web提交分析任务,由常驻小型管控服务器发布指令利用预设的分析计算任务容器镜像创建若干不同类型分析计算容器;

S4:基于基因原始数据和数据分析任务需要,利用各类分析计算容器以文件存储服务器上的数据为中心进行流水线式分析计算;

S5:分析计算完成后将分析结果以及相关数据进行存储,各类型分析计算容器分别执行对应的容器生命周期,有任务继续分析其他任务,无任务后关闭,释放计算资源;

S6:常驻小型管控服务器在接收到计算完成信息的同时接收到结果下载地址,并显示于前端web,前端web用于根据下载地址来下载结果信息并交付给用户。

优选的,所述分析计算任务容器镜像的制作过程为:对各类生信分析步骤流程拆进行拆解,将相类似的硬件和软件资源要求的软件分析内容进行整合,并根据各类分析任务的不同配置要求,特异性构建系统软件适配的容器镜像,并在创建容器时为其分配适配的计算资源。

优选的,所述步骤S3中的分析计算容器根据分析任务的拆解数据来构建,所述分析任务的数据拆解过程包括:数据质控及清洗、参考基因组比对、比对后数据处理和注释、数据筛选以及可视化展示;

所述数据质控及清洗:对CPU和内存的要求均不高,单线程居多,耗时;

所述参考基因组比对:对CPU和内存要求都很高,特别对内存的占用大;

所述比对后数据处理和注释对内存要求高,且随着数据量增加而增加;

所述数据筛选以及可视化展示对CPU和内存的要求均不高;

上述步骤中对系统软件环境和计算资源的要求均不同,拆解时根据系统环境要求,基于的语言要求进行拆解,然后进行特异性的镜像构建封装,计算容器的的创建方案根据拆解的镜像数据进行拆分。

优选的,所述分析计算完成后,采用对象存储的存储器服务来存储分析结果,并由对象存储将结果下载地址以及用于提取分析结果的账号密码发送至常驻小型管控服务器。

优选的,所述对象存储的存储服务采用带AES加密的低频存储方式或者归档存储的方式保存。

优选的,所述步骤S5中还包括:利用文件存储服务器的服务,由小型管控服务器将步骤S1中所述的原始数据拷贝至挂载的文件存储服务器中。

优选的,所述流水线式分析计算的具体过程为:将存放有数据的文件存储服务器挂载至创建的所有各类分析计算容器上,所述原始数据在文件存储上流转,所述分析计算容器后执行工作流分析任务,待该任务完成后,返回完成信息至常驻小型管控服务器,并由下一个分析计算容器接替继续分析,直至完成所有分析任务。

本发明的有益效果为:

1、本方案中只设有一个常驻的小型服务器,初期投入成本低,且只有在发生计算任务的时候再各种计算容器参与计算,并根据生命周期自动关闭,单次使用的成本降到了最低。

2、本发明基于容器技术创建的各类分析计算容器,可以使用不同的CPU和内存组合,最大限度发挥计算资源。并且容器数量只跟云计算服务提供商的上限有关,可以满足多样本多任务并行计算,最大效率节省时间成本。

3、本发明基于容器技术创建的各类分析容器,使用容器的管理镜像技术进行管理,部署时间和部署效率都大于传统的虚拟机技术和快照技术,还将相似硬件需求软件需求的计算软件整合在同一容器镜像中。使得每个生物信息分析产品所需要的系统软件环境相互独立便于管理,并部署迅捷。

4、本发明中的容器技术的可共享同一个操作系统的内核,将应用程序与系统其它部分隔离开,使得计算分析时单个分析软件可以做到相对的独立隔离,不会相互干扰,保证计算的准确性,降低了错误率。

5、本发明使用文件存储来进行运算时的数据文件和数据库文件,将各类分析容器挂载在文件存储上。以数据为中心,类似于工业生产中的流水线,从而释放网络带宽,提高分析性能,降低运行计算成本。使用对象存储OSS的存储服务来上传原始数据和交付分析结果,拥有更高的数据传输速度和数据安全保护。

附图说明

图1为本发明中提供的系统结构框图。

图2为本发明中方法流程示意图。

具体实施方式

下面将结合说明书附图对本发明的实施例进行详细说明。

如图1所示,本发明提供了一种基于容器技术的生物信息分析计算系统,包括用于:Web交互模块:用户输入需要进行生物信息分析的原始数据以及提交分析任务。

调控模块:根据用户提交的任务信息,拆分成各个类型的分析子任务,并创建用于分析计算的节点容器(dockers),实时监控处理各个任务数据状态,并对任务状态进行实时更新反馈。

计算分析模块:包括各种类型的生物信息分析计算容器,系统根据不同的分析子任务选择对应的容器,快速的部署用于分析计算的节点容器。

数据共享模块:用于保存各个任务节点容器运行所生成的数据,通过数据共享的模式,减少各个节点容器之间的数据传输,可以有效的降低任务执行时间,提升效率。

数据存储模块:用于存储用户输入的原始数据以及分析结果数据;

数据交付平台:用于将分析结果形成报告交付给用户。

其中计算分析模块中的容器包括计算资源、分析系统和运行使用的软件,使用不同的CPU和内存组合,最大限度发挥计算资源。

如图2所示,本发明还提供了一种基于容器技术的生物信息分析计算方法,包括以下步骤:

创建一个常驻小型服务器ECS支持前端web交互和管控调解指令的发送;

分析任务由前端web被提交以后,利用云计算提供的弹性容器计算服务,常驻服务器发布指令将使用预制好的对应的分析计算任务容器镜像,创建若干个对应的分析计算容器,并根据对应的分析需求配比服务器计算和存储资源。

利用对象存储、文件存储服务,将创建的所有的分析计算容器挂载至文件存储服务中,并将用户在前端web提供的数据拷贝至文件存储服务中,所有分析计算容器开始进行计算分析,完成各自计算任务的容器会结束期容器周期,跳转为运行成功。若还存在其他数据分析任务,可调度容器继续计算其他的数据。待所有计算完成后将结果交付至对象存储中存储,并返回完成信息这常驻的小型服务器。

常驻服务器在接收到完成信息后,在前端的web交互端将结果的下载信息交付给用户。

上述过程均可在云计算技术的web端实现或者本地搭建的小型服务器上实现,故各类具有浏览器的设备都可以访问并发布分析指令。

作为本发明的一种实施方式,分析计算任务容器镜像的形成过程包括将各类生信分析流程拆解,组合整理各类分析软件制作拆解成各种任务的容器镜像,具体为:将相类似的资源要求的软件分析内容整合在一起,配置各类分析任务不同,计算资源适配的容器镜像。

以目前使用较多的RNA测序基因数据分析软件举例,原始的基因数据在分析计算时需要经过以下几个步骤:数据质控及清洗、参考基因组比对(mapping)、比对后数据处理和注释、数据筛选以及可视化展示。

其中,数据质控及清洗:对CPU和内存的要求均不高,单线程居多,耗时。软件大多基于(Python,Java等)

参考基因组比对(mapping):对CPU和内存要求都很高,特别对内存的占用很大。

比对后数据处理和注释:对内存要求高,随着数据量增加而增加。软件大多基于(Python,Java等)

数据筛选以及可视化展示:对CPU和内存的要求均不高。软件大多基于(perl、R等)

以上步骤对系统软件环境和计算资源的要求均不同,拆解时可以根据系统环境要求,基于的语言要求(包括Perl、python、Java、R等)进行拆解,然后进行特异性的镜像构建封装。具体构建方案,根据拆解的镜像数据进行拆分。

作为本发明的一种实施方式,分析计算完成后,采用对象存储的存储服务来存储分析结果,并由对象存储将结果下载地址以及用于提取分析结果的账号密码发送至常驻小型服务器。本实施例中对象存储的存储服务采用带AES加密的低频存储方式或归档存储方式。

作为本发明的一种实施方式,在产能需要拓展的情况下,采用流水线式分析计算,具体为:将存放有数据的文件存储服务器挂载至创建的所有各类分析计算容器上,所述原始数据在文件存储上流转,所述分析计算容器后执行工作流分析任务,待该任务完成后,返回完成信息至常驻小型管控服务器,并由下一个分析计算容器接替继续分析,直至完成所有分析任务。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号