首页> 中国专利> 一种病原微生物基因组快速分析方法及系统

一种病原微生物基因组快速分析方法及系统

摘要

本发明公开了一种病原微生物基因组快速分析方法及数据分析平台;该方法在菌株数据库系统的基础上提供了基于细菌基因组序列的分型与溯源功能,用户只需作简单的参数设置并上传菌株的基因组序列,系统将在极短的时间内反馈该菌株的MLST分型结果、耐药与毒力基因分布、参考菌株名称并提供用户上传菌株与数据库中所有菌株间的系统发生树。该方法适用于建立一个整合遗传学、基因组学和系统发育学研究的病原微生物学数据分析平台。与现有的分型技术相比,分辨率更高,能更准确区同一克隆的菌株;结果反馈速度快,采用高效的参考菌株设定与基因组SNP序列映射技术,用户可快速获得数据分析结果,便于病原微生物克隆传播的实时跟踪与快速溯源。

著录项

  • 公开/公告号CN106886689A

    专利类型发明专利

  • 公开/公告日2017-06-23

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201510932914.6

  • 发明设计人 阮陟;陈欢;冯晔;单杲;

    申请日2015-12-15

  • 分类号G06F19/22;G06F19/28;

  • 代理机构北京市盈科律师事务所;

  • 代理人刘立国

  • 地址 310003 浙江省杭州市庆春路79号

  • 入库时间 2023-06-19 02:37:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-21

    授权

    授权

  • 2017-07-18

    实质审查的生效 IPC(主分类):G06F19/22 申请日:20151215

    实质审查的生效

  • 2017-06-23

    公开

    公开

说明书

技术领域

本发明涉及基因组分型与溯源领域,尤其涉及一种病原微生物基因组快速分析方法及系统。

背景技术

传染性流行病是公共卫生领域的一个重大安全问题,如何针对这些传染性疾病进行监测和防控是人类面临的一大难题。近年来,随着广谱抗菌药物的广泛使用,细菌耐药性问题已经成为全球公共卫生所关注的焦点,多重耐药菌、广泛耐药菌不断增加和流行,临床上已经出现对目前所有抗菌药物均耐药的“超级耐药细菌”感染,给人类健康带来了巨大威胁。世界卫生组织研究报告指出,如果“超级细菌”得不到有效遏制,全球每年可能造成1000万人死亡。我国是耐药细菌流行非常严重的国家之一,抗生素不合理使用导致的耐药问题已经成为关乎民生和卫生健康的重大问题。

传统的应对策略通常是对病原微生物进行体外药物敏感性试验、生化鉴定及多位点序列分型(MLST)、脉冲场凝胶电泳(PFGE)等各种分子生物学分型手段明确细菌流行的主要克隆型(Clonal type)。这些方法所产生的分型结果通常仅供局部范围参考,不便于查看、追溯数据,也无法建立长期有效地耐药菌株流行档案;并且分型数据相对孤立,通常难以在不同医院之间共享。虽然能在一定程度上指导临床治疗和疫情防控,但很难对疫情做出迅速反应,而且受限于其低水平分辨率通常难以准确的区分同一克隆型的细菌,故无法制定针对性强的治疗及防控措施。尤其在面对新发、突发传染病病原或难以用常规手段培养的病原微生物时,传统分子流行病学方法往往难以发挥效应,无法找到疾病传播的源头并阻止疫情的继续蔓延。病原微生物溯源则是解决疾病传播所不可或缺的手段,它是指借助某种技术手段追寻病原体的传播途径,找到疫情发生的源头。只有追溯到疫情的源头,才能从根本上阻断疾病传播的链条,从而在传染病的防治中占据主动地位。

近年来,随着高通量测序技术的快速发展,极大提高了病原微生物分型技术的分辨率,而测序所需时间与成本都得到显著降低,使得快速确认并追踪病原微生物的爆发流行成为可能。因此,流行病学与基因组学的有机结合将预示着未来“基因组流行病学”的发展趋势,并为其研究提供了强有力的武器。病原微生物基因组流行病学是在DNA序列的基础上进行流行病学分析,通过比对分析不同菌株基因组间的单核苷酸多态性(SNP),可以确定不同时间或地点分离菌株之间的流行病学相关性,并可推演其在过去一段时间内的进化过程。该方法使得分型的分辨率有了极大幅度的提高,能帮助快速确认并追踪病原体,也能检测出实验室难以培养的或新出现病原体,解决传统分子流行病学手段难以阐明的科学问题。

为实现对病原微生物基因组数据的存储及后续分析研究,现阶段在世界范围内已建立多个基因组序列信息数据库,如美国国立生物技术信息中心(NCBI)开发的GenBank、SRA数据库,欧洲生物信息学中心(EBI)开发的ENA数据库等,上述数据库提供了大量的病原微生物基因组DNA序列及其注释信息,但是,由于上述数据库中的部分数据来源于用户提交的序列信息,所以十分有必要对这些数据库中的病原微生物基因组序列数据进行梳理、确证、分类与菌株临床资料的提取与整合,从而建立一个完善的病原微生物基因组序列数据库。另外,部分国外学者从一级数据库出发,构建了各种病原微生物基因组数据的二级数据库。例如:Wattam等从NCBI数据库出发,建立了包含常见病原微生物基因组序列信息的PATRIC数据库,并整合了几种常见的数据分析工具。Jolley等结合现有的MLST分型技术,基于Gene-By-Gene策略,开发出适用于脑膜炎双球菌等物种的BIGSdb数据库,用于从基因组水平获取病原微生物的MLST数据。综上所述,这些数据库都是针对某一种或几种病原微生物和特定的目标功能而建立的,都是在一级数据库基础上进行的序列信息提取、筛选和重组,能够在一定程度上解决一些生物学问题。

但是这些数据库也存在着以下几点不足:①这些数据库都没有将菌株的基因组序列与其重要临床信息(例如:菌株来源、宿主与相关疾病、菌株分离时 间与地点等)关联并整合,使得用户尤其是不具备生物信息学背景的临床医生在面对基因组序列数据时,得到的仅是由A、T、C、G组成的字符串,而对其最关注的菌株临床信息却无法获取;②就PATRIC数据库而言,虽然包含了多种病原微生物的基因组序列信息,但是这种序列信息仍然需要进行大量而复杂的处理和筛选,才能进行下游的病原微生物分型与溯源;③就BIGSdb数据库而言,虽然能够结合现有的MLST分型技术,并在基因组水平自定义菌株的MLST方案,但是其依赖的Gene-By-Gene数据分析策略需要消耗较长的时间,通常完成一次基于用户自定义的细菌基因组MLST分型方案的设计与数据分析需要耗费数小时,难以满足快速、准确有效的病原微生物分型与溯源要求;④各数据库间既缺乏共同遵循的技术规范,也没有建立完善的参考菌株互通体系,数据既不具备可比性也无法及时共享。

发明内容

(一)要解决的技术问题是提供一种病原微生物基因组快速分析方法及系统。

(二)技术方案

本发明的目的之一是通过以下技术方案来实现的:

本发明提供的病原微生物基因组快速分析方法,包括以下步骤:

S1:获取细菌菌株的基因组序列与临床资料并建立BWGT数据库;

S2:根据BWGT数据库确定该细菌基因组序列所对应的物种与其相对应的MLST分型方案;

S3:根据物种与MLST分型方案在MLST数据库中通过BLAST序列比对分析得到基于菌株基因组序列的序列型及其所属克隆复合体信息,并设定具体的参考菌株;

S4:基于基因组SNP序列映射技术,获取菌株的基因组SNP序列与亲缘关系;

S5:通过Relax NJ算法绘制基于细菌基因组SNP序列的系统发生树;

进一步,还包括以下步骤:

S6:将菌株临床资料、参考菌株、基因组SNP序列和系统发生树信息整合到BWGT数据库。

进一步,所述BWGT数据库至少包括以下信息:

依照不同物种进行划分的病原微生物基因组序列及其编码蛋白与结构域的注释;各物种对应的多位点序列分型方案、等位基因序列、序列型与等位基因型对应关系表;菌株临床资料信息及其与公共数据库的链接;用于基因组分型的参考菌株信息;与参考菌株基因组序列进行BLAST比对与多序列联配后,生成的基因组SNP数据;用户提交的菌株临床信息及其基因组SNP数据。

进一步,所述BWGT数据库中的菌株基因组序列是从公共基因组数据库中获取的基因组数据,并将基因组数据进行去冗余处理,后按照病原体的不同物种进行分类得到的菌株基因组序列;

所述BWGT数据库中的MLST分型方案数据是根据不同物种从公共数据库中提取不同MLST分型数据集,并存入数据库。

进一步,所述BWGT数据库中设置有细菌菌株的参考菌株的相关信息;

根据基因组序列信息确定基因组序列的分型组;所述基因组序列中的等位基因型超过预设数量的判定为一个分型组;

从分型组中确定克隆复合体;所述分型组中的序列型达到预设个数的判定为一个克隆复合体;

在每个克隆复合体中选取一株细菌作为参考菌株。

进一步,所述序列型与等位基因型对应关系表设置有八列,分别代表序列型与七个等位基因的序列型数值;

所述MLST数据库中的MLST分型方案所对应的等位基因序列采用如下的序列格式:该序列格式以FASTA格式为基础,在每行“>”后输入等位基因名与等位基因型,中间用“-”分隔;

所述BWGT数据库包括公共数据库资源和菌株临床资料信息;

所述公共数据库资源包括NCBI、EBI、PATRIC公共数据库资源和PubMLST公共数据库资源;

所述菌株临床资料信息通过文本挖掘技术从网页与文献中提取菌株的临床资料整合数据。

本发明的目的之二是通过以下技术方案来实现的:

本发明提供的病原微生物基因组快速分析系统,包括BWGT数据库及分别与BWGT数据库关联的菌株基因组分型与溯源单元、SNP序列注释单元、参考菌株判定单元、SNP序列生成单元、SNP位点坐标转换单元、数据库浏览单元和用户数据提交单元;

所述BWGT数据库至少包括以下信息:

依照不同物种进行划分的病原微生物基因组序列及其编码蛋白与结构域的注释;各物种对应的多位点序列分型方案、等位基因序列、序列型与等位基因型对应关系表;菌株临床资料信息及其与公共数据库的链接;用于基因组分型的参考菌株信息;与参考菌株基因组序列进行BLAST比对与多序列联配后,生成的基因组SNP数据;用户提交的菌株临床信息及其基因组SNP数据;

所述菌株基因组分型与溯源单元按照以下步骤进行:

S1:获取细菌菌株的基因组序列与临床资料;

S2:确定菌株基因组序列所对应的物种及其相应的MLST分型方案,并构建MLST数据库;

S3:根据物种与MLST分型方案在MLST数据库中通过BLAST序列比对分析得到基于菌株基因组序列的序列型及其所属克隆复合体信息,并设定具体的参考菌株;

S4:基于基因组SNP序列映射技术,获取菌株的基因组SNP序列与亲缘关系;

S5:通过Relax NJ算法绘制基于细菌基因组SNP序列的系统发生树;

所述SNP序列注释单元根据菌株基因组分型与溯源单元的SNP文件生成的SNP序列注释信息,所述SNP序列注释信息包括同义突变位点、非同义突变位点及基因间区信息;

所述参考菌株判定单元用于根据物种与其对应的MLST方案和序列型来生 成的该序列型对应的参考菌株信息;

所述SNP序列生成单元用于根据参考菌株基因组序列差异来生成的基因组SNP序列文件;

所述SNP位点坐标转换单元用于将用户上传的基因组序列和待转换坐标原始SNP文件转换成适应于BWGT数据库中数据格式的基因组SNP文件;

所述数据库浏览单元用于通过选择物种与其对应的参考菌株信息后,查看浏览数据库中所有菌株的临床信息,所述临床信息包括菌株名、序列型、菌株分离来源、宿主与相关疾病、菌株分离时间与地点、GenBank登录号;

所述耐药与毒力基因鉴定单元用于从用户上传的基因组序列识别出与病原微生物致病性密切相关的耐药基因与毒力基因,并映射耐药表型,从而实现细菌耐药性的快速预测;

用户数据提交单元用于将产生的SNP文件及菌株的临床信息提交到BWGT数据库中。

进一步,所述BWGT数据库中的菌株基因组序列是从公共基因组数据库中获取的基因组数据,并将基因组数据进行去冗余处理,后按照病原体的不同物种进行分类得到的菌株基因组序列;

所述BWGT数据库中的MLST分型方案数据是根据不同物种从公共数据库中提取不同MLST分型方案数据集,并存入数据库。

进一步,所述BWGT数据库中设置有细菌菌株的参考菌株的相关信息;

根据基因组序列信息确定基因组序列的分型组;所述基因组序列中的等位基因型超过预设数量的判定为一个分型组;

从分型组中确定克隆复合体;所述分型组中的序列型达到预设个数的判定为一个克隆复合体;

在每个克隆复合体中选取一株细菌作为参考菌株。

进一步,所述序列型与等位基因型对应关系表设置有八列,分别代表序列型与七个等位基因的序列型数值;

所述MLST数据库中的MLST分型方案所对应的等位基因序列采用如下的 序列格式:该序列格式以FASTA格式为基础,在每行“>”后输入等位基因名与等位基因型,中间用“-”分隔;

所述BWGT数据库包括公共数据库资源和菌株临床资料信息;

所述公共数据库资源包括NCBI、EBI、PATRIC公共数据库资源和PubMLST公共数据库资源;

所述菌株临床资料信息通过文本挖掘技术从网页与文献中提取菌株的临床资料整合数据。

(三)有益效果

与现有技术和产品相比,本发明有如下优点:

本发明基于高通量基因组测序技术建立病原微生物快速基因组分型与溯源方法及系统,适用于建立一个整合遗传学、基因组学和系统发育学研究的病原微生物学数据分析平台。

1、与现有的PFGE、MLST等分型技术相比,分辨率更高,能更准确区分传统分型方法认为是同一克隆的菌株;

2、本发明不仅可应用于临床分离菌株的基因组分型,也可以用于病原微生物克隆传播的实时跟踪与快速溯源。用户通过浏览器可直接访问并使用本系统,操作简便,无需具备专业的生物信息学知识。用户通过使用本系统可明确当前临床分离菌株是否在数据库中还存在相似菌株以及它们之间的亲缘关系,从而有利于指导专业人士合理使用抗生素,降低耐药细菌的速度传播,还能够成为病原微生物克隆传播的实时跟踪与快速溯源的一个安全可靠的信息平台。

3、结果反馈速度快,采用高效的参考菌株设定与SNP序列映射技术,用户只需要等待短短几十秒的时间即可获得数据分析结果,便于病原微生物克隆传播的实时跟踪与快速溯源。

4、充分利用公共数据库数据,达到病原微生物克隆传播的实时跟踪与快速溯源目的。

附图说明

图1为实施例的数据库系统的总体架构图。

图2为实施例的使用数据库系统中的分析工具与第三方地图API对所有菌株的分离地点进行标注。

图3为实施例的使用数据库系统中的分析工具对SNP序列进行系统发生树分析实例。

图4为实施例的使用数据库系统中的分析工具对基因组序列进行多位点序列分型MLST分析实例。

图5为实施例的病原微生物基因组快速分析方法流程图。

图6为实施例的病原微生物基因组快速分析系统原理框图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及具体实施方式对本发明作进一步的详细描述。

实施例1

如图所示,图5为实施例的病原微生物基因组快速分析方法流程图;本实施例提供一种病原微生物基因组快速分析方法,包括以下步骤:

S1:获取细菌菌株的基因组序列与临床资料并建立BWGT数据库;

S2:根据BWGT数据库确定菌株基因组序列所对应的物种及其相应的MLST分型方案,并构建MLST数据库;

S3:根据物种与MLST分型方案在MLST数据库中通过BLAST序列比对分析得到基于菌株基因组序列的序列型及其所属克隆复合体信息,并设定具体的参考菌株;

S4:基于基因组SNP序列映射技术,获取菌株的基因组SNP序列与亲缘关系;

S5:通过Relax NJ算法绘制基于细菌基因组SNP序列的系统发生树;

S6:将菌株临床资料、参考菌株、基因组SNP序列和系统发生树等信息整合到BWGT数据库。

所述BWGT数据库至少包括以下信息:

依照不同物种进行划分的病原微生物基因组序列及其编码蛋白与结构域的注释;各物种对应的多位点序列分型方案、等位基因序列、序列型与等位基因型对应关系表;菌株临床资料信息及其与公共数据库的链接;用于基因组分型的参考菌株信息;与参考菌株基因组序列进行BLAST比对与多序列联配后,生成的基因组SNP数据;用户提交的菌株临床信息及其基因组SNP数据。

所述BWGT数据库中的菌株基因组序列是从公共基因组数据库中获取的基因组数据,并将基因组数据进行去冗余处理,后按照病原体的不同物种进行分类得到的菌株基因组序列;

所述BWGT数据库中的MLST分型方案数据是根据不同物种从公共数据库中提取不同MLST分型方案数据集,并存入数据库。

所述BWGT数据库中设置有细菌菌株的参考菌株的相关信息;

根据基因组序列信息确定基因组序列的分型组;所述基因组序列中的等位基因型超过预设数量的判定为一个分型组;

从分型组中确定克隆复合体;所述分型组中的序列型达到预设个数的判定为一个克隆复合体;

在每个克隆复合体中选取一株细菌作为参考菌株。

所述序列型与等位基因型对应关系表设置有八列,分别代表序列型与七个等位基因的序列型数值;

所述MLST数据库中的MLST分型方案所对应的等位基因序列采用如下的序列格式:该序列格式以FASTA格式为基础,在每行“>”后输入等位基因名与等位基因型,中间用“-”分隔;

所述BWGT数据库包括公共数据库资源和菌株临床资料信息;

所述公共数据库资源包括NCBI、EBI、PATRIC公共数据库资源和PubMLST等公共数据库资源;

所述菌株临床资料信息通过文本挖掘技术从网页与文献中提取菌株的临床资料整合数据。

如图所示,图1为实施例的数据库系统的总体架构图;图6为实施例的病原微生物基因组快速分析系统原理框图;本实施例中还提供了一种病原微生物基因组快速分析系统,包括BWGT数据库及分别与BWGT数据库关联的菌株基因组分型与溯源单元、SNP序列注释单元、参考菌株判定单元、SNP序列生成单元、SNP位点坐标转换单元、数据库浏览单元和用户数据提交单元;

所述BWGT数据库至少包括以下信息:

依照不同物种进行划分的病原微生物基因组序列及其编码蛋白与结构域的注释;各物种对应的多位点序列分型方案、等位基因序列、序列型与等位基因型对应关系表;菌株临床资料信息及其与公共数据库的链接;用于基因组分型的参考菌株信息;与参考菌株基因组序列进行BLAST比对与多序列联配后,生成的基因组SNP数据;用户提交的菌株临床信息及其基因组SNP数据;

所述菌株基因组分型与溯源单元按照以下步骤进行:

S1:获取细菌菌株的基因组序列与临床资料并建立BWGT数据库;

S2:根据BWGT数据库确定菌株基因组序列所对应的物种及其相应的MLST分型方案,并构建MLST数据库;

S3:根据物种与MLST分型方案在MLST数据库中通过BLAST序列比对分析得到基于菌株基因组序列的序列型及其所属克隆复合体信息,并设定具体的参考菌株;

S4:基于基因组SNP序列映射技术,获取菌株的基因组SNP序列与亲缘关系;

S5:通过Relax NJ算法绘制基于细菌基因组SNP序列的系统发生树;

所述SNP序列注释单元根据菌株基因组分型与溯源单元的SNP文件生成的SNP序列注释信息,所述SNP序列注释信息包括同义突变位点、非同义突变位点及基因间区信息;

所述参考菌株判定单元用于根据物种与其对应的MLST方案和序列型来生成的该序列型对应的参考菌株信息;

所述SNP序列生成单元用于根据参考菌株基因组序列差异来生成的基因组 SNP序列文件;

所述SNP位点坐标转换单元用于将用户上传的基因组序列和待转换坐标原始SNP文件转换成适应于BWGT数据库中数据格式的基因组SNP文件;

所述数据库浏览单元用于通过选择物种与其对应的参考菌株信息后,查看浏览数据库中所有菌株的临床信息,所述临床信息包括菌株名、序列型、菌株分离来源、宿主与相关疾病、菌株分离时间与地点、GenBank登录号;

所述耐药与毒力基因鉴定单元用于从用户上传的基因组序列识别出与病原微生物致病性密切相关的耐药基因与毒力基因,并映射耐药表型,从而实现细菌耐药性的快速预测;

用户数据提交单元用于将产生的SNP文件及菌株的临床信息提交到BWGT数据库中。

所述BWGT数据库中的菌株基因组序列是从公共基因组数据库中获取的基因组数据,并将基因组数据进行去冗余处理,后按照病原体的不同物种进行分类得到的菌株基因组序列;

所述BWGT数据库中的MLST分型方案数据是根据不同物种从公共数据库中提取不同MLST分型方案数据集,并存入数据库。

所述BWGT数据库中设置有细菌菌株的参考菌株的相关信息;

根据基因组序列信息确定基因组序列的分型组;所述基因组序列中的等位基因型超过预设数量的判定为一个分型组;

从分型组中确定克隆复合体;所述分型组中的序列型达到预设个数的判定为一个克隆复合体;

在每个克隆复合体中选取一株细菌作为参考菌株。

所述序列型与等位基因型对应关系表设置有八列,分别代表序列型与七个等位基因的序列型数值;

所述MLST数据库中的MLST分型方案所对应的等位基因序列采用如下的序列格式:该序列格式以FASTA格式为基础,在每行“>”后输入等位基因名与等位基因型,中间用“-”分隔;

所述BWGT数据库包括公共数据库资源和菌株临床资料信息;

所述公共数据库资源包括NCBI、EBI、PATRIC公共数据库资源和PubMLST等公共数据库资源;

所述菌株临床资料信息通过文本挖掘技术从网页与文献中提取菌株的临床资料整合数据。

实施例2

如图所示,本实施例提供一种病原微生物快速基因组分型与溯源系统。该系统使用方便,功能丰富,通过应用互联网及安全的云计算技术,用户上传基因组测序数据,并在云服务器端进行相关数据计算与分析,明确具体型别,并且还可以将其与历史上出现的同类细菌的基因组信息予以比对,明确它们的进化关系,从而便于比较其毒力、致病性及对药物的敏感性,以期寻找最佳的治疗策略。

本实施例提供的数据库在整合各种一级数据库和二级数据库的基础上,进行了有针对性的改进,建立了一种病原微生物快速基因组分型与溯源系统:该系统旨在构建在线网络数据库以追踪重要病原微生物的流行状况,主要包括鲍曼不动杆菌、肺炎克雷伯菌、大肠埃希菌、金黄色葡萄球菌等多种重要病原微生物。数据库收录的相关基因组数据主要来源于NCBI、EBI、PATRIC等公共数据库资源,MLST分型方案数据来源于PubMLST等公共数据库资源,并结合文本挖掘技术从网页与文献中提取菌株的临床资料并予以整合。在上述基因组数据资源的基础上,整合Linux+Apache+MySQL+PHP(简称LAMP)架构,设计数据库系统并提供web应用服务。

该数据库围绕病原微生物分型与溯源开发了一系列的数据分析工具,用户只需作简单的参数设置并上传菌株的基因组序列,系统将在极短的时间内反馈该菌株的MLST分型结果、耐药与毒力基因分布、参考菌株名称并提供用户上传菌株与参考菌株比对所产生的SNP文件供下载。

此外,系统还能反馈数据库中与用户上传菌株序列亲缘关系的所有菌株名称与差异的SNP数目,并显示基于菌株基因组SNP序列的系统发生树。用户还可 以借助该数据库提供的菌株信息浏览功能,查看数据库中所有菌株的临床资料。系统还整合了第三方地图API,可直观标注所有菌株的分离地点并与系统发生树进行交互,以便掌握不同菌株的流行特点。通过上传数据分析工具产生的SNP文件,用户将能在极短时间内获得所测基因组菌株与数据库中现有菌株间的系统发生树,从而实现病原微生物的快速基因组分型与溯源。此外,系统还能定期与各公共数据库进行数据同步与批处理,以确保数据库的及时更新。

下面具体从数据库系统架构,数据库的构建,数据的采集、分类、加工及重组,数据分析功能的实现四个方面进一步详细描述。

一、数据库系统架构

本实施例采用的数据库系统架构包括:Linux操作系统,Apache网络服务器,MySQL数据库管理系统,PHP和HTML程序设计语言(简称LAMP架构)。在本发明中,采用自定义安装Apache服务器、MySQL服务器,并自主开发数据处理与分析Perl脚本,配置程序运行环境,搭建了一个病原微生物快速基因组分型与溯源系统。

二、数据库的构建

本数据库是基于关系数据库模式而构建的。从总体上来看,在数据库中最终包含的信息有:依照不同物种进行划分的病原微生物基因组序列(FASTA格式)及其编码蛋白与结构域的注释;各物种对应的多位点序列分型方案、等位基因序列(FASTA格式)、序列型与等位基因型对应关系表(TSV格式)等数据;菌株临床资料信息及其与公共数据库的链接(SQL格式);用于基因组分型的参考菌株信息(SQL格式);与参考菌株基因组序列进行BLAST比对与多序列联配后,生成的SNP数据(VCF格式);用户提交的菌株临床信息(SQL格式)及其SNP数据(VCF格式)。

三、数据的采集、分类与处理

1、菌株基因组序列及其临床信息的采集与处理

NCBI GenBank、NCBI SRA与EBI ENA数据库为目前用户提交基因组序列最主要的三个公共数据库,也提供了广泛的、综合的基因组数据共享平台,因 此选择了这三个数据库作为菌株基因组序列采集的来源。但是,由于上述数据库中的部分基因组数据存在冗余,且NCBI SRA与EBI ENA数据库存储的为测序原始数据(raw sequence reads),先应用从头序列拼接(de novo assembly)程序Velvet对测序原始数据(DNA小片段)进行组装,根据每个片段的重叠部分组装成主体序列,并形成基因组序列大片段(contig)。然后,根据菌株名对来源于公共数据库中的基因组数据进行去冗余处理,去除不同数据库中共有的菌株及相关临床资料不完整的菌株,并按照不同物种进行分类,最后将结果存入数据库。此外,通过文本挖掘与人工核对的方式,从PubMed、Google Scholar与PATRIC等公共数据库中收集并整理菌株的重要临床信息(例如:菌株来源、宿主与相关疾病、菌株分离时间与地点等),并将其保存到数据库中。此外,系统还能定期与各公共数据库进行数据同步与批处理,以确保数据库的及时更新。

2、MLST分型方案数据的采集与处理

牛津大学开发的PubMLST数据库包含了大量的细菌MLST分型数据,其中,部分数据是由一些独立的机构维护支持的,这些数据往往只在那些独立的数据库中被维护,而在PubMLST中则缺少更新。因此,可整合了除PubMLST外的其他数据库中的MLST分型方案、不同等位基因型对应的DNA序列、序列型与等位基因型对应关系表(ST_composition)等数据,这些数据库分别为:英国帝国理工大学开发的MLST.net数据库、法国巴斯德研究所开发的Institut Pasteur数据库及英国华威大学开发的Warwick数据库。首先从上述MLST数据库中提取不同MLST分型方案所对应的各等位基因序列,并整理成便于后续数据处理的序列格式,该序列格式以FASTA格式为基础,在每行“>”后需要包含等位基因名与等位基因型,中间用“-”分隔。然后,整理序列型与等位基因型对应关系表,该表由8列构成,分别代表序列型与7个等位基因的序列型数值。

3、基因组MLST分型、参考菌株的确定及SNP文件的生成

将第1步收集的菌株基因组序列与第2步产生的MLST分型方案数据进行BLAST序列相似性比对,得出7个等位基因序列的相似度,即可明确数据库中所有菌株的序列型,再借助BURST算法绘制类似于网络结构的辐射状图(Radial diagram)。该算法主要针对细菌种群依不同基因型进行分组和聚类,并通过绘制网络结构图反映其进化关系,比较适合处理MLST数据。在本实施例中,限定7个等位基因型中有5个或5个以上相同的属于一个分型组,并构建进化关系网络图。如果1个分型组中包含4个或4个以上序列型,则将其定义为1个克隆复合体(Clonal complex)。对于每个克隆复合体而言,通过BURST算法能够计算出一个在进化关系上被认为是祖先的序列型,作为起源(Founder),并将该祖先的序列型作为该克隆复合体的名称。而该克隆复合体中的其他序列型表示从祖先的基础上进化而来,二者之间通过1条直线相连,直线的长度则表示亲缘关系的远近。与祖先相邻的其他序列型主要存在如下3种情形:只存在1个等位基因型不同的序列型称为单位点变异(Single-locus variant,SLV);存在2个等位基因型不同的序列型称为双位点变异(Double-locus variant,DLV);另外,不属于任何1个克隆复合体的序列型称为单体(Singleton),它往往以散点的形式呈现在网络图中。例如:数据库中有3株鲍曼不动杆菌,其序列型分别为ST92、ST75、ST138,其中7个等位基因型组合分别为:ST92(1-3-3-2-2-7-3)、ST75(1-3-3-2-2-11-3)、ST138(1-3-3-2-2-50-3)。由于它们的7个等位基因型中有6个是相同的,故它们属于同一克隆复合体,也表明其亲缘关系较近。

由于克隆复合体能够在一定程度反映不同菌株间的亲缘关系,故在每个克隆复合体中选取1株细菌作为参考菌株,用于代表当前克隆复合体的其它细菌,从而形成公共数据库收录的全部序列型、参考菌株名与参考菌株序列型之间的对应关系表(ST_link_ref)。在明确参考菌株的基础上,将第1步收集的菌株基因组序列与参考菌株的基因组序列进行比对,从而生成基因组水平的单核苷酸多态性位点(SNP)序列集。由于在单次暴发疫情中,病原体的变异可能很小,传统的方法通常难以检测出暴发菌株间的细微变异,而SNP针对于单核苷酸位点突变,具有区分病原体的最高分辨率,因此基于全基因组序列的SNP系统发育树可以较为准确地研究病原体之间的进化关系。本发明根据基因组序列的相似性,设计每个参考菌株基因组序列都对应至少1株可用于基因组MLST分型 的菌株。从而实现从MLST分型到参考菌株的选择,最终依据此标准将所有菌株的SNP序列生成并存储到数据库中。

四、在线数据分析、浏览与提交等功能的实现

应用PHP和CGI(公用网关接口)技术,在后台调用一系列Perl脚本开发出一个可通过Web对数据库进行访问与操作的系统,并动态生成界面友好的数据分析结果页面。用户可通过网页浏览器实现在线数据分析、浏览与提交等功能。本实施例根据系统所需功能生成具有该功能的网页插件工具,具体如下:

1、在线数据分析工具

①菌株基因组分型与溯源

该工具为本发明最重要的功能之一,它的设计用意主要在于为那些已测细菌基因组序列的用户提供一个基因组水平的分型与菌株克隆传播的快速溯源工具。用户使用该工具时,需要先选择物种与其对应的MLST方案,再上传基因组序列(既可以是基因组序列完成图也可以是草图)。系统通过BLAST序列比对,可告知用户该菌株的MLST分析结果与系统推荐的参考菌株名、参考菌株的序列型、GenBank登录号等信息,并提供用户上传菌株与参考菌株之间的基因组SNP序列。系统还能进一步计算出与用户上传菌株亲缘关系最接近的10株菌的SNP位点数量差异,并基于Relaxed NJ算法绘制出基于基因组SNP序列的系统发生树。在该系统发生树中,所有菌株可依亲缘关系远近排列,近缘菌株将聚成一簇,从而显示用户上传序列与数据库中现有菌株序列的亲缘关系。

②SNP序列注释

用户使用该工具时,需要先选择物种与其对应的参考菌株信息,再上传菌株基因组分型与溯源工具生成的SNP文件。系统将在短时间内反馈SNP序列的注释结果,包括同义突变位点、非同义突变位点及基因间区等信息。

③判定参考菌株

用户使用该工具时,需要先选择物种与其对应的MLST方案,再填写对应的序列型,系统将在短时间内反馈与该序列型对应的参考菌株信息。

④生成SNP序列

如果用户打算自行指定参考菌株,并进行基因组序列比对与映射,生成SNP序列,则可以通过该工具上传2个菌株的基因组序列,从而获得基于用户自定义参考菌株的SNP序列文件。

⑤SNP位点坐标转换

如果用户事先通过其他途径已生成SNP文件,如基于其他参考菌株基因组序列生成的SNP文件,但仍希望使用本数据库进行数据分析,则需要使用该功能进行SNP位点坐标转换,以实现数据的互相兼容。系统能自动读取用户提供的SNP文件中所有位点坐标及碱基信息,分析其与参考菌株基因组序列间的关联,并将其转换成本数据库适用的SNP文件。用户使用该工具时,需要选择或自行上传两个基因组序列,并提供原始待转换坐标的SNP文件,系统将在短时间内提供转换成功后的SNP文件供用户下载。

⑥耐药与毒力基因鉴定

用户使用该工具时,需要先选择相应物种并上传菌株基因组数据,系统将自动与事先整理好的耐药与毒力基因数据库进行BLAST序列比对,以便从用户上传的基因组序列中识别出与病原微生物致病性密切相关的耐药基因与毒力基因,并映射耐药表型,从而实现细菌耐药性的快速预测。相关耐药基因主要包括基因组中存在的可能导致细菌对β-内酰胺类、喹诺酮类、四环素类、氨基糖苷类、大环内酯类、酰胺醇类、磺胺类、氯霉素、多肽类抗菌药物敏感性下降的基因,相关毒力基因主要包括与细菌致病性密切相关的粘附因子、生物被膜形成相关因子、免疫逃逸因子、毒素、分泌系统等。该工具在反馈预测结果时,可按耐药与毒力基因类型依次告知用户相关基因名称、片段大小、在基因组中的具体位置、与标准序列的相似度、预测的耐药表型等信息。

2、数据库浏览工具

用户通过选择物种与其对应的参考菌株信息后,即可根据参考菌株的不同浏览数据库中所有菌株的临床信息,包括:菌株名、序列型、菌株分离来源、宿主与相关疾病、菌株分离时间与地点、GenBank登录号等。系统还整合了第三方地图API,可直观标注所有菌株的分离地点并与系统发生树进行交互,以便 掌握不同菌株的流行特点。用户可通过勾选其中的部分或全部菌株以下载其菌株信息,也可以调用数据库后台的SNP序列绘制基于基因组SNP的系统发生树。用户还可以在勾选数据库中现有菌株的同时,上传菌株基因组分型与溯源工具生成的SNP文件,并绘制用户上传的菌株与数据库中现有菌株的基因组SNP系统发生树,从而明确当前菌株与数据库中历史上的分离菌株之间的亲缘关系,最终实现病原微生物快速基因组分型与溯源。

3、用户数据提交

用户还可以将在线数据分析工具产生的SNP文件及菌株的临床信息提交到数据库中,以便于数据库的及时更新。在数据提交页面,用户需要填写相关菌株的临床信息,选择参考菌株,并上传SNP文件。系统将在后台自动检查SNP文件的完整性与准确性,经检查无误后,相关信息会在24小时内同步到数据库中,供用户使用。

其中,图2为实施例的使用数据库系统中的分析工具与第三方地图API对所有菌株的分离地点进行标注。图3为实施例的使用数据库系统中的分析工具对SNP序列进行系统发生树分析实例。图4为实施例的使用数据库系统中的分析工具对基因组序列进行多位点序列分型MLST分析实例。

本实施例中的用户上传的高通量测序数据既可以是事先经过拼接后的基因组数据大片段,也可以是采用zip格式压缩的测序原始数据。另外,用户还可以使用FTP客户端上传高通量测序数据,以节约数据上传时间。

本实施例中的浏览器在线数据传输外,还可以为用户设计客户端,用于发送用户的基因组数据与接收分析结果。客户端既可以是浏览器插件,也可以是部署在用户计算机操作系统的软件终端。

本实施例中的从代表性数据库中提取特定信息,还可以从更多数据库中提取特定信息,并将该信息进行整合而开发的相似数据库。

该系统的体系结构是从基因组序列出发,到序列型与参考菌株的设定,再生成以菌株为基本单位的SNP序列。

本实施例中参考菌株的设定方法是根据不同物种与相应MLST分型方案在 MLST数据库中通过BLAST序列比对分析得到基于菌株基因组序列的序列型及其所属克隆复合体信息,并从每个克隆复合体中挑选1株代表菌株作为参考菌株。

本实施例中基于菌株基因组SNP序列映射方法,并基于SNP序列进行菌株间系统发生树的绘制。

以上实施例仅为本发明的一种实施方式,其描述较为具体和详细,但不能因此而理解为对本发明专利范围的限制。其具体结构和功能可根据实际需要进行相应的调整。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号