首页> 中国专利> 一种利用基因序列信息预测药物最小抑菌浓度的方法

一种利用基因序列信息预测药物最小抑菌浓度的方法

摘要

本发明提供了一种利用基因序列信息预测药物最小抑菌浓度的方法,所述方法包括如下步骤:获取耐药菌的多个样本的基因组测序数据,并根据所述基因组测序数据生成耐药菌的SNP信息和/或核苷酸k‑mers计数信息;以至少一种碱基长度的平滑滑动窗口切割所述基因组测序数据,统计切割后所有碱基片段的出现频率,以至少一种碱基片段进行拼接,合并所得拼接结果与所对应的耐药菌的最小抑菌浓度,获得特征数据集;将所述耐药菌的样本随机分为训练集和测试集,采用特征数据集训练机器学习模型,并计算所述机器学习模型的预测精度。该方法预测准确度较高,可以缩短最小抑菌浓度的检测时间,对临床用药具有重要的指导意义。

著录项

说明书

技术领域

本发明属于基因检测技术领域,尤其涉及一种利用基因序列信息预测药物最小抑菌浓度的方法。

背景技术

耐药菌感染是全球范围内严重的公共卫生威胁。与常规的基于培养的方法相比,用于快速识别病原体和预测抗生素抗性表型的全基因组测序方法正变得越来越可行,并且可能提供一种减少基于常规培养方法的临床测试周转时间的方法,从而改善患者的治疗效果。

最小抑菌浓度(minimum inhibitory concentration,MIC)是指经过一夜的培养后,能使细菌的发育受到阻滞并被观察到的抗细菌药的最小浓度。MIC在诊断实验室里是抗细菌药对细菌的抵抗力的一个重要的指标,同时,MIC对验证新的抗细菌药的效果也是十分重要的依据。抗感染药治疗的最终目的是根除人体被感染部位的病原微生物,从微生物学角度看是通过达到和维持一定的抗感染药的浓度来实现的,抗感染药在体内或体外的浓度要达到或超过MIC,才能抑制病原微生物的生长;越低的MIC说明对细菌的作用越好。

肺炎克雷伯菌(

美罗培南(Meropenem)属于碳青霉烯,是一种有非常广泛抗菌性及可供注射的抗生素,用于治疗多种不同的感染,包括脑膜炎及肺炎。通过抑制细菌细胞壁的合成产生抗菌作用。美罗培南很容易穿透大多数革兰氏阳性和阴性细菌的细胞壁,达到其目标青霉素结合蛋白(PBPs)。在检测美罗培南对肺炎克雷伯菌的最小抑菌浓度时,常采用传统的培养基培养的方式如肉汤稀释法和琼脂稀释法,然而,该方法耗时较长,对于易产生耐药性的病原菌导致的细菌感染而言适用性不高。

因此,本发明的目的在于提供一种利用细菌基因组信息,快速、准确地预测药物对耐药菌的最小抑菌浓度的方法,指导临床用药。

发明内容

针对现有技术存在的不足,本发明的目的在于提供一种利用基因序列信息预测药物最小抑菌浓度(MIC)的方法,利用单核苷酸多态性(SNP)信息和基于宏基因组数据的核苷酸k-mers计数来预测药物对耐药菌的MIC,该方法可以缩短实验时间,从而提高患者的治疗效果。

为达此目的,本发明采用以下技术方案:

第一方面,本发明提供一种利用基因序列信息预测药物最小抑菌浓度的方法,所述方法包括如下步骤:

(1)获取耐药菌的多个样本的基因组测序数据,并根据所述基因组测序数据生成耐药菌的SNP信息和/或核苷酸k-mers计数信息;

(2)以至少一种碱基长度的平滑滑动窗口切割所述基因组测序数据,统计切割后所有碱基片段的出现频率,

(3)以至少一种碱基片段进行拼接,合并所得拼接结果与所对应的耐药菌的已知最小抑菌浓度,获得特征数据集;

(4)将所述耐药菌的样本随机分为训练集和测试集,采用所述训练集的特征数据集训练机器学习模型,并使用所述测试集的特征数据集计算所述机器学习模型的预测精度。

本发明中,除了利用宏基因组数据中的SNP信息进行建模之外,同时还利用的基因组中的核苷酸k-mers计数信息进行建模,即利用宏基因组测序数据和深度神经网络预测MIC,该方法快速高效,能够缩短MIC的检测时间,且预测结果准确度较高,且实验结果证明,在相关机器学习模型中,DNN比XGBoost更适合用SNP预测MIC,XGBoost比DNN更适合用核苷酸k-mers预测MIC。

为了进一步提高预测精度,本发明中还将SNP和k-mer混合进行建模,即筛选出对MIC影响比较大的序列信息,从原始数据集中抽取这80个特征对应的数据,构建新的数据集,重新训练,得到准确度较高的数据集。

作为本发明优选的技术方案,步骤(1)所述耐药菌包括肺炎克雷伯氏杆菌(

优选地,步骤(1)所述生成耐药菌的SNP信息和/或核苷酸k-mers计数信息所采用的软件包括Bwa、SamTools或Bcftools。

优选地,步骤(3)中所述碱基片段的长度与步骤(2)中所述的碱基长度对应。

优选地,所得特征数据集为以碱基片段为特征、最小抑菌浓度值为标签的表格。

优选地,步骤(4)所述机器学习模型包括XGBoost分类模型、XGBoost回归模型或DNN回归模型中的任意一种。

优选地,所述方法中DNN回归模型采用所述耐药菌的SNP信息预测最小抑菌浓度,XGBoost分类模型或XGBoost回归模型采用所述耐药菌的核苷酸k-mers信息预测最小抑菌浓度。

优选地,所述方法还包括:

使用XGBoost分类模型或XGBoost回归模型对所述耐药菌的核苷酸k-mers信息进行排序,使用DNN回归模型对所述耐药菌的SNP信息进行排序,并从原始的基因组测序数据中抽取对应的样本数据、构建新的数据集对机器学习模型进行重新训练的步骤。

第二方面,本发明还提供一种利用基因序列信息预测药物对耐药菌的最小抑菌浓度的装置,所述装置包括:

基因组测序数据获取模块,用于获取耐药菌的多个样本的基因组测序数据,并根据所述基因组测序数据生成耐药菌的SNP信息和/或核苷酸k-mers信息;

特征获取模块,用于切割、统计和拼接所述耐药菌的SNP信息和/或核苷酸k-mers信息,并将拼接结果与最小抑菌浓度对应获取特征数据集;

模型训练模块,用于利用所得特征数据集训练机器学习模型,并测试所得机器学习模型的预测精度。

第三方面,本发明还提供一种计算机设备,其特征在于,所述设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的利用基因序列信息预测药物对耐药菌的最小抑菌浓度的方法。

第四方面,本发明还包括一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的利用基因序列信息预测药物对耐药菌的最小抑菌浓度的方法。

与现有技术相比,本发明的有益效果为:

本发明提供的利用基因序列信息预测药物对耐药菌的最小抑菌浓度的方法,利用单核苷酸多态性信息和核苷酸k-mers计数,预测药物对耐药菌的MIC;以药物美罗培南对肺炎克雷伯菌的MIC为例,本发明中,使用SNP预测XGBoost分类模型、XGBoost回归模型和DNN回归模型的MIC的准确率分别为77.8%、80.3%和87.8%,核苷酸k-mers预测MIC的准确率分别为90.6%、92.4%和80%,即预测准确度为77.8%~92.4%,且由实验数据可知,DNN比XGBoost更适合用SNP预测MIC,XGBoost比DNN更适合用核苷酸k-mers预测MIC;

结合实验结果,本发明进一步构建混合模型,选取对MIC影响较大的SNP和k-mers,重新训练模型,得到了预测结果更加准确的计算模型,进一步提高了MIC预测结果的准确率,对后续指导临床用药具有重要的意义。

附图说明

图1为本发明中利用基因序列信息预测药物对耐药菌的最小抑菌浓度的方法的流程图。

图2为本发明中利用基因序列信息预测美罗培南对肺炎克雷伯菌的最小抑菌浓度的方法的流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案,但下述的实例仅仅是本发明的简易例子,并不代表或限制本发明的权利保护范围,本发明的保护范围以权利要求书为准。

以下实施例中,若无特殊说明,所用试剂及耗材均购自本领域常规试剂厂商;若无特殊说明,所用实验方法和技术手段均为本领域常规的方法和手段。

本发明中所述的利用基因序列信息预测药物对耐药菌的最小抑菌浓度的方法包括如图1所示的步骤:

S1、获取样本的基因组测序数据

获取耐药菌的多个样本的基因组测序数据,并根据所述基因组测序数据生成耐药菌的SNP信息和/或核苷酸k-mers计数信息;

S2、剪切、统计并拼接碱基片段

以至少一种(例如可以是6个、8个或者10个)碱基长度的平滑滑动窗口切割所述基因组测序数据,统计切割后所有碱基片段的出现频率,以至少一种碱基片段进行拼接,合并所得拼接结果;

S3、获取特征数据集

所得拼接结果与所对应的耐药菌的最小抑菌浓度,获得特征数据集;

S4、训练机器学习模型并测试预测精度

采用训练集的特征表格训练机器学习模型,使用所述测试集的特征数据集计算所述机器学习模型的预测精度。

在本发明一具体的实施例当中,采集230例样本的MIC数据,以及其肺炎克雷伯菌分离株的全基因组序列数据,开发了两种预测MIC值的方法:

(1)基于XGBoost的机器学习模型

(2)基于DNN的深度学习模型

两种模型的整体精度在±1两倍稀释系数之内,为92%。

该方法可以并不局限于药物美罗培南,也可以是其他广谱抗生素其他药物,例如可以是用于人类的广谱抗生素,包括但不限于:氨基糖苷类、氨苄西林、阿莫西林、阿莫西林/克拉维酸、碳青霉烯类(例如亚胺培南)、哌拉西林/他唑巴坦、喹诺酮类(例如环丙沙星)、四环素类、氯霉素、替卡西林和甲氧苄啶/磺胺甲唑(复方新诺明)等药物;同样的,所述耐药菌也并不局限于肺炎克雷伯菌,也可包括其他能够导致细菌感染的病原菌,例如可以是粪肠球菌(

本发明中,利用基因序列信息预测美罗培南对肺炎克雷伯菌的最小抑菌浓度的方法如图2所示,具体如下:

S1、获取样本的基因组测序数据

基因信息的来源和获取:从BioProject网站,下载230个肺炎克雷伯菌基因组测序数据;

利用软件生成肺炎克雷伯菌的SNP信息和核苷酸k-mers信息;此步骤中使用的软件包括Bwa、SamTools和Bcftools等软件;

S2、剪切、统计并拼接碱基片段

对克雷伯菌的临床分离株的全基因组序列数据进行切割,统计,拼接。

(1)以6个碱基长度的移动平滑滑动窗口,切割细菌基因序列,并统计切割后每个样本中所有可能碱基片段出现的频率;

(2)再将6个碱基长度的碱基片段的表格进行拼接;

此外,本方法中还以8个碱基长度和10个碱基长度的移动平滑滑动窗口,切割细菌基因序列,并统计切割后每个样本中所有可能碱基片段出现的频率;

再分别将8个碱基长度的碱基片段和10个碱基长度的碱基片段的表格进行拼接,进行下一步处理。

S3、获取特征数据集

根据每个样本ID,将拼接结果与样本的MIC进行合并,最后生成一个以碱基片段为特征,MIC值为标签的表格,所得表格中的部分数据如下表1所示:

表1

S4、训练机器学习模型并测试预测精度

采用三种机器学习和深度学习模型预测MIC:XGBoost分类模型、XGBoost回归模型和深度神经网络(DNN)回归模型;样本以8:2的比例随机分为训练集和测试集。运行100次后,计算测试集的平均精度,具体程序如下:

cnt1=0

cnt2=0

for i in(len(y_test)):##遍历测试集

if pred[i]==y_test[i]:

cnt1+=1##如果预测值等于测试集实际的MIC值,则cnt1计数加1

else:

cnt2+=1##如果预测值不等于测试集实际的MIC值,则cnt2计数加1

print(“Accuracy:%.2f%%”%(100*cnt1/(cnt1+cnt2)))##输出模型在测试集上的预测MIC的准确率

用SNP预测XGBoost分类模型、XGBoost回归模型和DNN回归模型的MIC的准确率分别为77.8%、80.3%和87.8%,核苷酸k-mers预测MIC的准确率分别为90.6%、92.4%和80%。

结果表明,DNN比XGBoost更适合用SNP预测MIC,XGBoost比DNN更适合用核苷酸k-mers预测MIC。

S5、重新确定特征数据集

用XGBoost、DNN对特征(SNP、k-mers)重要性进行排序,找到对MIC影响比较大的特征,进一步选取40个核苷酸k-mers(表2)和40个与MIC相关性最高的SNPs(表3)作为特征;

表2

表3

从原始数据集中抽取这80个特征对应的数据,构建新的数据集;

S6、重新训练机器学习模型并测试预测精度

然后通过上述三种模型重新训练,模型结构没有变化,预测MIC的结果的准确率均有所提高,结果表明,三种模型的精度均有不同程度的提高。

且根据经外部验证(文献和软件工具),上述40个核苷酸k-mers和40个SNP中有部分与耐药有关。

因此,本发明提供的利用基因序列信息预测药物对耐药菌的最小抑菌浓度的方法,预测结果准确,且构建方法简单,快速,适用于指导临床用药。

申请人声明,以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,所属技术领域的技术人员应该明了,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,均落在本发明的保护范围和公开范围之内。

序列表

<110> 上海宝藤生物医药科技股份有限公司

上海宝藤医学检验所有限公司

上海张江医学创新研究院

上海交通大学医学院附属瑞金医院

<120> 一种利用基因序列信息预测药物最小抑菌浓度的方法

<130> 20210407

<160> 59

<170> SIPOSequenceListing 1.0

<210> 1

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 1

aaaaaa 6

<210> 2

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 2

aaaaac 6

<210> 3

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 3

aaaaag 6

<210> 4

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 4

aaaaat 6

<210> 5

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 5

aaaaca 6

<210> 6

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 6

aaaacc 6

<210> 7

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 7

aaaacg 6

<210> 8

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 8

aaaact 6

<210> 9

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 9

aaaaga 6

<210> 10

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 10

aaaagc 6

<210> 11

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 11

ttacaa 6

<210> 12

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 12

ttagaa 6

<210> 13

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 13

ttataa 6

<210> 14

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 14

ttcaaa 6

<210> 15

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 15

ttccaa 6

<210> 16

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 16

ttcgaa 6

<210> 17

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 17

ttgaaa 6

<210> 18

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 18

ttgcaa 6

<210> 19

<211> 6

<212> DNA

<213> Klebsiella pneumoniae

<400> 19

tttaaa 6

<210> 20

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 20

gactcctagc 10

<210> 21

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 21

cgtccgtaac 10

<210> 22

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 22

cctagcctaa 10

<210> 23

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 23

gtttcgta 8

<210> 24

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 24

cggcggaagc 10

<210> 25

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 25

ccattcataa 10

<210> 26

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 26

agggtgtagc 10

<210> 27

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 27

tgccctggaa 10

<210> 28

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 28

acaaggacac 10

<210> 29

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 29

atcgccagta 10

<210> 30

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 30

attccacgtc 10

<210> 31

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 31

ctaacacgga 10

<210> 32

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 32

aaaaggtttc 10

<210> 33

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 33

cacgtcgttc 10

<210> 34

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 34

ccaaggtcta 10

<210> 35

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 35

acacatac 8

<210> 36

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 36

atccctcgag 10

<210> 37

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 37

gcggctcgaa 10

<210> 38

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 38

caagcgccgc 10

<210> 39

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 39

caacaaagtc 10

<210> 40

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 40

aaacagtcgc 10

<210> 41

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 41

aacccact 8

<210> 42

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 42

acaaagatag 10

<210> 43

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 43

acgtcaat 8

<210> 44

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 44

caagcatata 10

<210> 45

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 45

aacgccgc 8

<210> 46

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 46

cgacccca 8

<210> 47

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 47

agattaagga 10

<210> 48

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 48

aaacacag 8

<210> 49

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 49

aggctaggag 10

<210> 50

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 50

accgcacg 8

<210> 51

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 51

attgagatcg 10

<210> 52

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 52

cccatactac 10

<210> 53

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 53

acaccccc 8

<210> 54

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 54

aaatgtga 8

<210> 55

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 55

agacgcgtgc 10

<210> 56

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 56

aggacgaa 8

<210> 57

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 57

ctaactcc 8

<210> 58

<211> 10

<212> DNA

<213> Klebsiella pneumoniae

<400> 58

gtggccacac 10

<210> 59

<211> 8

<212> DNA

<213> Klebsiella pneumoniae

<400> 59

atcgctaa 8

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号