首页> 中国专利> 构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法

构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法

摘要

本发明提出了构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法,所述方法包括:分别测定已知患有感染性疾病受试者和已知患有非感染性疾病受试者的生物样本中宿主基因表达量值和/或微生物相对丰度值;分别将所述宿主基因表达量值和/或微生物相对丰度值输入训练器,以感染性疾病和非感染性疾病作为标记,进行训练,以便获得鉴定感染性疾病和非感染性疾病的机器学习模型。利用该机器学习模型可以准确鉴定感染性疾病和非感染性疾病,具有重要的科学研究和临床诊断价值。

著录项

  • 公开/公告号CN114854847A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 深圳华大基因股份有限公司;

    申请/专利号CN202210566863.X

  • 发明设计人 祝中一;麻锦敏;陈唯军;

    申请日2022-05-23

  • 分类号C12Q1/6883(2018.01);C12Q1/689(2018.01);C12Q1/6895(2018.01);G16B25/10(2019.01);G16B30/00(2019.01);G16B40/00(2019.01);

  • 代理机构北京知帆远景知识产权代理有限公司 11890;

  • 代理人肖阳

  • 地址 518083 广东省深圳市盐田区洪安三街21号华大综合园7栋7层-14层

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-04

    授权

    发明专利权授予

  • 2022-10-21

    专利申请权的转移 IPC(主分类):C12Q 1/6883 专利申请号:202210566863X 登记生效日:20221010 变更事项:申请人 变更前权利人:深圳华大基因股份有限公司 变更后权利人:深圳华大基因股份有限公司 变更事项:地址 变更前权利人:518083 广东省深圳市盐田区洪安三街21号华大综合园7栋7层-14层 变更后权利人:518083 广东省深圳市盐田区洪安三街21号华大综合园7栋7层-14层 变更事项:申请人 变更前权利人: 变更后权利人:深圳华大医学检验实验室

    专利申请权、专利权的转移

  • 2022-08-23

    实质审查的生效 IPC(主分类):C12Q 1/6883 专利申请号:202210566863X 申请日:20220523

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及医疗诊断领域。具体地,本发明涉及构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法。

背景技术

感染性疾病是指病原体、病原体的增殖和宿主组织对病原及其产生的毒素的反应对机体组织的入侵性疾病,是由感染引起的疾病。非感染性疾病是指不是由病原体感染引起的,而也能导致机体免疫系统激活而引起的疾病,如癌症、阿尔茨海默氏症和癫痫等。对呼吸道感染性疾病(如肺炎)的鉴别、中枢神经系统感染性疾病(如脑炎和脑膜炎)和非感染性疾病的鉴别诊断,尤其是全身细菌感染性疾病在重症监护室中占相当比例。临床症状不典型、进展快、危害严重,因此早期诊断显得尤为重要。故寻找能早期诊断、监测疗效且特异性高的实验室检测指标,对帮助临床及时、准确地早期诊断、早期有效治疗、降低病死率,同时避免滥用抗生素,减少细菌耐药性产生有重要的意义。

虽然临床对于感染性疾病和非感染性疾病的最终判断往往是基于多种因素(包括临床症状)综合考虑的结果,但是其诊断往往都需依赖于病原学的检测结果。目前临床常规病原检测方法以细菌/真菌培养、病毒PCR与免疫标志物为主,但分离培养阳性率偏低(15%-20%)且周期过长(3-5天),分子检测与血清学检测存在检测目标固定单一等局限。对于微生物鉴定为阴性的样品来说,对感染性疾病和非感染性疾病的鉴别就变得更加困难。对于微生物鉴定为阳性的结果来说,微生物鉴定为阳性并不代表检出的微生物就是致病病原微生物,存在定植和感染的鉴别问题。

定殖微生物是指微生物(如细菌)存在于人体表面(如皮肤、口腔、肠道或气道)而不会引起人体疾病。病原体感染是指致病的病原体对宿主机体组织的入侵。对于微生物定植来说,各种微生物经常从不同环境落到人体,并能在一定部位定居和不断生长、繁殖后代。也即从临床标本中分离出微生物,但患者没有感染的相应临床症状及体征,一般不需要抗菌药物治疗。微生物定植需要黏附力、适宜的环境及一定的数量。对于病原体感染来说,病原体侵入人体后,进行生长繁殖释放毒性物质并引起机体病理反应的过程,也即从临床标本中分离出致病病原体,患者同时有感染的相应临床症状和体征,需要抗菌药物治疗。

微生物定植在一定的条件下会发展成病原体感染。微生物的致病力与机体的抵抗力相互“斗争”,当人体免疫力低下,或者服用一些免疫抑制剂后,微生物便有可乘之机,诱发感染。由于定植微生物的致病性是相对的,临床上无法通过患者的临床表现经验诊断至属或种,实验室亦无法单纯依赖培养鉴定技术确定其是感染性病原体还是定植微生物。如果仅仅根据微生物定植结果制定治疗方案就容易照成抗生素的过度使用,而且还可能会诱导微生物耐药。而如果错误的判断了病原体为定植微生物而没有或不足量的使用抗生素,病情可能发展迅猛,甚至导致生命难以挽回。因此,鉴别感染的微生物是定植还是感染是目前临床上感染治疗难点问题之一。

因此,鉴定感染性疾病和非感染性疾病的方法仍有待研究。

发明内容

本发明旨在至少在一定程度上解决现有技术中存在的技术问题。为此,本发明提出了构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法、试剂在鉴定感染性疾病和非感染性疾病中的用途、构建鉴定感染性疾病和非感染性疾病的机器学习模型的装置、鉴定感染性疾病和非感染性疾病的系统、电子设备、可执行的存储介质和鉴定感染性病原体和定植性微生物的方法,具有重要的科学研究和临床诊断价值。

在本发明的第一方面,本发明提出了一种构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法。根据本发明的实施例,所述方法包括:测定已知患有感染性疾病受试者和已知患有非感染性疾病受试者的生物样本中宿主基因表达量值和/或微生物相对丰度值;将获得的宿主基因表达量值和/或微生物相对丰度值输入训练器,以感染性疾病和非感染性疾病作为标记,构建鉴定感染性疾病和非感染性疾病的机器学习模型。

本申请的发明人研究发现,利用生物样本中的宿主基因、微生物丰度或者两者结合,可以准确地鉴定出生物样本中含有定植性微生物或者是感染性病原体,进而可以诊断出生物样本来源的受试者是否患有感染性疾病或者非感染性疾病。由于,基于已知患有感染性疾病受试者和已知患有非感染性疾病受试者的生物样本中宿主基因表达量值和/或微生物相对丰度值构建机器学习模型可以准确地用于鉴定感染性疾病和非感染性疾病。

在本发明的第二方面,本发明提出了试剂在鉴定感染性疾病和非感染性疾病中的用途。根据本发明的实施例,所述试剂用于检测待测生物样本中宿主基因的表达水平和/或微生物的丰度水平。

在本发明的第三方面,本发明提出了一种构建鉴定感染性疾病和非感染性疾病的机器学习模型的装置。根据本发明的实施例,所述装置包括:测定单元,所述测定单元用于测定已知患有感染性疾病受试者和已知患有非感染性疾病受试者的生物样本中宿主基因表达量值和/或微生物相对丰度值;训练单元,所述训练单元用于基于输入训练器中的由所述检测单元获得的宿主基因表达量值和/或微生物相对丰度值,以感染性疾病和非感染性疾病作为标记,构建鉴定感染性疾病和非感染性疾病的机器学习模型。

在本发明的第四方面,本发明提出了一种鉴定感染性疾病和非感染性疾病的系统。根据本发明的实施例,所述方法包括:检测单元,所述检测单元用于检测生物样本中宿主基因的表达量值和/或微生物的丰度值;分析单元,所述分析单元适于将所述宿主基因表达量值和/或微生物相对丰度值输入前述第一方面所述方法获得的机器学习模型中,进行分析,得到分析结果,基于所述分析结果,确定提供所述生物样本的受试者是否患有感染性疾病或非感染性疾病。

在本发明的第五方面,本发明提出了一种鉴定感染性病原体和定植微生物的方法。根据本发明的实施例,所述方法包括:检测待测生物样本中宿主基因表达量值和/或微生物相对丰度值;将所述宿主基因表达量值和/或微生物相对丰度值输入机器学习模型中,进行分析,得到分析结果;基于所述分析结果,确定提供所述待测生物样本中是否含有感染性病原体或定植微生物。

在本发明的第六方面,本发明提出了一种电子设备。根据本发明的实施例,所述电子设备包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现如前所第一方面所述方法或者第二方面所述用途中鉴定感染性疾病和非感染性疾病的方法。

在本发明的第七方面,本发明提出了一种可执行的存储介质。根据本发明的实施例,所述存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使得所述处理器执行如前述第一方面所述方法或者第二方面所述用途中鉴定感染性疾病和非感染性疾病的方法。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1显示了根据本发明一个实施例的构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法流程示意图;

图2显示了根据本发明的基于宿主基因表达量对于感染性脑炎和非感染性脑炎鉴别的组间鉴别效果对比结果示意图;

图3显示了根据本发明一个实施例的基于微生物相对丰度对于感染性脑炎和非感染性脑炎组间鉴别效果对比结果示意图;

图4显示了根据本发明一个实施例的基于宿主基因表达量和微生物相对丰度组合对于感染性脑炎和非感染性脑炎组间鉴别效果对比结果示意图;

图5显示了根据本发明一个实施例的基于宿主基因表达量对于感染性肺炎和非感染性肺炎的组间鉴别效果对比结果示意图;

图6显示了根据本发明一个实施例的基于微生物丰度对于感染性肺炎和非感染性肺炎的组间鉴别效果对比结果示意图;

图7显示了根据本发明一个实施例的基于宿主基因表达量对于感染性肺炎和非感染性肺炎组间鉴别效果对比结果示意图。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法

在本发明的一个方面,本发明提出了一种构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法。根据本发明的实施例,该方法包括:测定已知患有感染性疾病受试者和已知患有非感染性疾病受试者的生物样本中宿主基因表达量值和/或微生物相对丰度值;将获得的宿主基因表达量值和/或微生物相对丰度值输入训练器,以感染性疾病和非感染性疾病作为标记,构建鉴定感染性疾病和非感染性疾病的机器学习模型。

对于感染性疾病来说,因为感染性疾病指的是病原、病原的增殖和宿主组织对病原及其产生的毒素的反应对机体组织的入侵性疾病,而病原体入侵会激起宿主的一系列免疫应答,包括先天性免疫反应和适应性免疫反应,可体现在宿主基因表达的变化上。所以,宿主的基因表达在感染性疾病和非感染性疾病中是可以区分的。通过检测待测样本中宿主基因的表达水平,可以判断是否发生了感染,从而实现感染性疾病和非感染性疾病的鉴定。

在病原微生物检测层面,感染性疾病意味着有致病的病原菌,因此检测病原微生物的有无可以一定程度的辅助鉴别是否患有感染性疾病。通过检测待测样品中微生物的丰度水平,作为机器学习建模变量的补充,与宿主基因表达水平相结合,进一步提高实现感染性疾病和非感染性疾病鉴别的准确度,判断检出的微生物是否为病原、是否是定植微生物或感染菌。

因此,本申请中选用宿主基因表达量值和/或微生物相对丰度值、该宿主基因表达量值和/或微生物相对丰度值对应的感染结果信息,作为样本数据集输入训练器,训练以便得出用于鉴定宿主基因表达量值和/或微生物相对丰度值对应的目标训练器,也即构建得到鉴定感染性疾病和非感染性疾病的机器学习模型。其中,感染结果信息包括用于指示为感染性疾病的标识信息(例如设置为数值“1”),或用于指示为非感染性疾病的标识信息(例如设置为数值“0”)。具体地,当训练数据为宿主基因表达量值及相应的感染结果信息时,得到的模型为宿主基因表达量值模型;当训练数据为微生物相对丰度值及相应的感染结果信息时,得到的模型为微生物相对丰度值模型;当训练数据为上述二者的结合时,得到的模型为宿主基因表达量值和微生物相对丰度值模型。

为了便于理解,本实施例中以宿主基因表达量值模型为例进行具体的训练过程描述,其他模型的训练可以参照实施例中的方法进行。即,将获得的宿主基因表达量值输入训练器,以感染性疾病和非感染性疾病作为标记,构建鉴定感染性疾病和非感染性疾病的机器学习模型,并使用十乘交叉验证的方法对模拟结果进行验证,具体步骤为:

将宿主基因表达量值按照预设比例进行随机分类,得到训练集和测试集,把此随机分类的过程循环进行10次,得到10分训练集和测试集;其中,本发明对预设比例值不做具体限定,本发明实施例中预设比例优选为9:1;

以感染性疾病和非感染性疾病为标记,利用训练集中的基因表达量值,对训练器进行训练,得到用于鉴定感染性疾病和非感染性疾病的候选机器学习模型;

以感染性疾病和非感染性疾病为标记,利用测试集中的基因表达量值,对各候选机器学习模型进行验证,得到各候选机器学习模型对应的预测值;

把预测值与实际的分类结果进行ROC(接受者操作特性曲线)分析,得到AUC曲线下面积值。将AUC值最高且基因数量最少的模型所使用的基因,设定为核心鉴别基因,其预测所使用的模型即为使用该基因鉴定感染性疾病和非感染性疾病的机器学习模型。在人为选定与获得的候选模型中AUC值较低的模型有显著差异的AUC值范围后,预测结果符合此AUC值所涉及的建模所需基因,即为候选鉴别基因,其相应预测所使用的模型即为使用涉及的一类基因鉴定感染性疾病和非感染性疾病的机器学习模型。

在对模型进行训练的过程中,使用R语言的GLMNET包拟合广义线性模型对训练集中的基因表达量值进行正则化。并且在具体进行处理时,因变量为二元变量(自身免疫性脑炎(AE)或非AE),故设置参数族设为“二项”,可以理解的是R语言的GLMNET包拟合广义线性模型中的lambda值可以根据实际需要进行设置,例如50等,本实施例中对此不做具体限定。

需要说明的是,本发明对于“已知患有感染性疾病”、“已知患有非感染性疾病受试者”的获知方式不作严格限定,只要是能够知晓提供生物样本的受试者患有感染性疾病或者非感染性疾病即可,例如,可以通过临床表现、辅助检查、确诊实验和排除其他病因等方式判断获知的。

术语“受试者”是指任何被检查、研究或治疗的动物,并非意在本发明受任何特定类型的受试者的限制。在本发明的一些实施方案中,人是优选的受试者,而在其他实施方案中,非人动物是优选的受试者,包括但不限于小鼠、猴、雪貂、牛、绵羊、山羊、猪、鸡、火鸡、狗、猫、马和爬行动物。

如在本文中所使用的,术语“生物样品”包括可以选取自含有可以在本文中提供的方法中使用的遗传物质的受试者的任何样品。根据本发明的实施例,所述生物样本选自外周血、脑脊液、肺泡灌洗液、痰液、试子和实体组织中的至少一种。

根据本发明的实施例,将所述宿主基因表达量值和/或微生物相对丰度值输入训练器之前,将所述宿主基因表达量值和/或微生物相对丰度值进行均一化处理,将所得均一化的宿主基因表达量值和/或均一化的微生物相对丰度值输入训练器。

根据本发明的实施例,所述试剂用于检测待测生物样本中宿主基因的表达水平和/或微生物的丰度水平。

根据本发明的实施例,所述感染性疾病为感染性脑炎,所述非感染性疾病为非感染性脑炎;所述宿主基因包括下列至少之一:MS4A4E、OPHN1、PLK3、ITGB7、NINJ2、STAT3、VRK1、TMEM147、REXO2、LCMT1、VPS54、POLE3、TESC、EMC3、RNF123、MZT2B、MALSU1、DHRS1、LPCAT4、EAPP、RASAL3、TGS1和RNA5S9;所述微生物包括下列至少之一:Enterobacter、Apibacter、Caedibacter、Alternaria、Gudongella、Drancourtella、Nitrincola、Cyphellophora、Acinetobacter、Propionicicella、Zhengella和Halorientalis。

根据本发明的优选实施例,所述宿主基因至少包括MS4A4E和OPHN1的至少之一;或者所述宿主基因至少包括MS4A4E和OPHN1的至少之一和/或下列至少之一:PLK3、ITGB7、NINJ2、STAT3、VRK1、TMEM147、REXO2、LCMT1、VPS54、POLE3、TESC、EMC3、RNF123、MZT2B、MALSU1、DHRS1、LPCAT4、EAPP、RASAL3、TGS1和RNA5S9;所述微生物至少包括Enterobacter;或者所述微生物至少包括Enterobacter和/或下列至少之一:Apibacter、Caedibacter、Alternaria、Gudongella、Drancourtella、Nitrincola、Cyphellophora、Acinetobacter、Propionicicella、Zhengella和Halorientalis。由此,单独采用上述宿主基因的表达量和微生物的丰度,或者两者结合使用,可以准确地鉴定出是否患有感染性脑炎。

根据本发明的实施例,所述感染性疾病为感染性肺炎,所述非感染性疾病为非感染性肺炎;所述宿主基因包括下列至少之一:ABCB6、FNIP1、CFTRP2、COX6CP2、DNAL4、GDF5-AS1、KLHL41、KRTAP9-2、MIR1283-2、MIR3689D2、MIR654、MRPS6、MTND4LP24、MTNR1A、PTGES3P4、RNA5SP360、RNU6-1029P、RNU6-1044P、RNU6-1144P、RNU6-1183P、RNU6-120P、RNU6-1312P、RNU6-1314P、RNU6-187P、RNU6-493P、RNU6-698P、RNU6-743P、RNU6-832P、RNU6-839P、RNU6-938P、RNU6ATAC37P、TVP23C;所述微生物包括下列至少之一:Scedosporium、Komagataeibacter、Alphabaculovirus、Cyclobacterium、Libanicoccus、Serpentinicella、Lachnospira、Nicoletella、Abyssicoccus和Occidentia。

根据本发明的优选实施例,所述宿主基因至少包括ABCB6和FNIP1的至少之一;或者所述宿主基因至少包括ABCB6和FNIP1的至少之一和/或下列至少之一:CFTRP2、COX6CP2、DNAL4、GDF5-AS1、KLHL41、KRTAP9-2、MIR1283-2、MIR3689D2、MIR654、MRPS6、MTND4LP24、MTNR1A、PTGES3P4、RNA5SP360、RNU6-1029P、RNU6-1044P、RNU6-1144P、RNU6-1183P、RNU6-120P、RNU6-1312P、RNU6-1314P、RNU6-187P、RNU6-493P、RNU6-698P、RNU6-743P、RNU6-832P、RNU6-839P、RNU6-938P、RNU6ATAC37P、TVP23C;所述微生物至少包括Scedosporium;或者所述微生物至少包括Scedosporium和/或下列至少之一:Komagataeibacter、Alphabaculovirus、Cyclobacterium、Libanicoccus、Serpentinicella、Lachnospira、Nicoletella、Abyssicoccus和Occidentia。

需要说明的是,上述描述的微生物是以属(genus)级别来分类限定的,任何归属于该属的种级别(species)微生物均涵盖在本发明的保护范围内。

根据本发明的实施例,参见图1,构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法包括:

a)从临床明确诊断为感染性疾病的多个受试者中获得所述生物样品;

b)从临床明确诊断为非感染性疾病的多个受试者中获得所述生物样品;

c)测定来自步骤(a)和(b)的所述生物样品中的每一个中的多个基因(例如,所有被表达的基因或转录组,或其子集)的基因表达水平;

d)测定来自步骤(a)和(b)的所述生物样品中的每一个中的多个微生物的相对丰度;

e)将在步骤(c)中得到的基因表达水平归一化以生成归一化的基因表达值;

f)将在步骤(d)中得到的微生物相对丰度归一化以生成归一化的相对丰度表达值;

g)将获得的归一化的基因表达值和微生物归一化的相对丰度值输入训练器,以感染性疾病和非感染性疾病作为标记,构建鉴定感染性疾病和非感染性疾病的机器学习模型。

试剂在鉴定感染性疾病和非感染性疾病中的用途

在本发明的第二方面,本发明提出了试剂在鉴定感染性疾病和非感染性疾病中的用途。根据本发明的实施例,该试剂用于检测待测生物样本中宿主基因的表达水平和/或微生物的丰度水平。如前所述,通过宿主基因表达水平的检测,可以判断受试者是否发生了感染。将宿主基因表达水平与微生物丰度水平相结合,可以判断出微生物是否为病原,是否是定植微生物或感染菌。由此,可以准确地鉴定出感染性疾病和非感染性疾病。

根据本发明的实施例,所述鉴定感染性疾病和非感染性疾病的方法包括:利用所述试剂检测待测生物样本中宿主基因表达量值和/或微生物相对丰度值;将所述宿主基因表达量值和/或微生物相对丰度值输入机器学习模型中,进行分析,得到分析结果;基于所述分析结果,确定提供所述待测生物样本的受试者患有感染性疾病或非感染性疾病;其中,所述机器学习模型是通过第一方面所述构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法获得的。由此,利用该方法可以准确鉴定出感染性疾病或非感染性疾病。

根据本发明的实施例,将所述宿主基因表达量值和/或微生物相对丰度值输入机器学习模型之前,将所述宿主基因表达量值和/或微生物相对丰度值进行均一化处理,将所得均一化的宿主基因表达量值和/或均一化的微生物相对丰度值输入机器学习模型。

需要说明的是,本发明对于试剂的具体类型不作严格限定,只要能够测定出宿主基因表达水平和微生物丰度水平即可,例如,所述试剂选自多重PCR、实时定量PCR、杂交、荧光检测、核酸质谱检测和核酸测序所使用的试剂中的至少一种。另外,测定宿主基因表达水平的试剂与测定微生物丰度水平的试剂既可以相同也可以不同,对此同样不做严格限定。

根据本发明的实施例,所述生物样本选自外周血、脑脊液、肺泡灌洗液、痰液、试子和实体组织中的至少一种。

根据本发明的实施例,所述感染性疾病为感染性脑炎,所述非感染性疾病为非感染性脑炎;所述宿主基因包括下列至少之一:MS4A4E、OPHN1、PLK3、ITGB7、NINJ2、STAT3、VRK1、TMEM147、REXO2、LCMT1、VPS54、POLE3、TESC、EMC3、RNF123、MZT2B、MALSU1、DHRS1、LPCAT4、EAPP、RASAL3、TGS1和RNA5S9;所述微生物包括下列至少之一:Enterobacter、Apibacter、Caedibacter、Alternaria、Gudongella、Drancourtella、Nitrincola、Cyphellophora、Acinetobacter、Propionicicella、Zhengella和Halorientalis。

根据本发明的优选实施例,所述宿主基因至少包括MS4A4E和OPHN1的至少之一;或者所述宿主基因至少包括MS4A4E和OPHN1的至少之一和/或下列至少之一:PLK3、ITGB7、NINJ2、STAT3、VRK1、TMEM147、REXO2、LCMT1、VPS54、POLE3、TESC、EMC3、RNF123、MZT2B、MALSU1、DHRS1、LPCAT4、EAPP、RASAL3、TGS1和RNA5S9;所述微生物至少包括Enterobacter;或者所述微生物至少包括Enterobacter和/或下列至少之一:Apibacter、Caedibacter、Alternaria、Gudongella、Drancourtella、Nitrincola、Cyphellophora、Acinetobacter、Propionicicella、Zhengella和Halorientalis。由此,单独采用上述宿主基因的表达量和微生物的丰度,或者两者结合使用,可以准确地鉴定出是否患有感染性脑炎。

根据本发明的实施例,所述感染性疾病为感染性肺炎,所述非感染性疾病为非感染性肺炎;所述宿主基因包括下列至少之一:ABCB6、FNIP1、CFTRP2、COX6CP2、DNAL4、GDF5-AS1、KLHL41、KRTAP9-2、MIR1283-2、MIR3689D2、MIR654、MRPS6、MTND4LP24、MTNR1A、PTGES3P4、RNA5SP360、RNU6-1029P、RNU6-1044P、RNU6-1144P、RNU6-1183P、RNU6-120P、RNU6-1312P、RNU6-1314P、RNU6-187P、RNU6-493P、RNU6-698P、RNU6-743P、RNU6-832P、RNU6-839P、RNU6-938P、RNU6ATAC37P、TVP23C;所述微生物包括下列至少之一:Scedosporium、Komagataeibacter、Alphabaculovirus、Cyclobacterium、Libanicoccus、Serpentinicella、Lachnospira、Nicoletella、Abyssicoccus和Occidentia。

根据本发明的优选实施例,所述宿主基因至少包括ABCB6和FNIP1的至少之一;或者所述宿主基因至少包括ABCB6和FNIP1的至少之一和/或下列至少之一:CFTRP2、COX6CP2、DNAL4、GDF5-AS1、KLHL41、KRTAP9-2、MIR1283-2、MIR3689D2、MIR654、MRPS6、MTND4LP24、MTNR1A、PTGES3P4、RNA5SP360、RNU6-1029P、RNU6-1044P、RNU6-1144P、RNU6-1183P、RNU6-120P、RNU6-1312P、RNU6-1314P、RNU6-187P、RNU6-493P、RNU6-698P、RNU6-743P、RNU6-832P、RNU6-839P、RNU6-938P、RNU6ATAC37P、TVP23C;所述微生物至少包括Scedosporium;或者所述微生物至少包括Scedosporium和/或下列至少之一:Komagataeibacter、Alphabaculovirus、Cyclobacterium、Libanicoccus、Serpentinicella、Lachnospira、Nicoletella、Abyssicoccus和Occidentia。

需要说明的是,前述第一方面所述构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法所描述的特征和优点(尤其是关于宿主基因和微生物所描述的特征和优点),同样适用于该用途,在此不再赘述。

构建鉴定感染性疾病和非感染性疾病的机器学习模型的装置

在本发明的第三方面,本发明提出了一种构建鉴定感染性疾病和非感染性疾病的机器学习模型的装置。根据本发明的实施例,所述装置包括:测定单元,所述测定单元用于测定已知患有感染性疾病受试者和已知患有非感染性疾病受试者的生物样本中宿主基因表达量值和/或微生物相对丰度值;训练单元,所述训练单元用于基于输入训练器中的由所述检测单元获得的宿主基因表达量值和/或微生物相对丰度值,以感染性疾病和非感染性疾病作为标记,构建鉴定感染性疾病和非感染性疾病的机器学习模型。

由此,利用根据本发明实施例的装置可以构建出可用于准确鉴定感染性疾病和非感染性疾病的机器学习模型,有助于实施上述第一方面所述构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法。

鉴定感染性疾病和非感染性疾病的系统

在本发明的第四方面,本发明提出了一种鉴定感染性疾病和非感染性疾病的系统。根据本发明的实施例,该系统包括:检测单元,所述检测单元用于检测生物样本中宿主基因的表达量值和/或微生物的丰度值;分析单元,所述分析单元适于将所述宿主基因表达量值和/或微生物相对丰度值输入前述第一方面所述方法获得的机器学习模型中,进行分析,得到分析结果,基于所述分析结果,确定提供所述生物样本的受试者是否患有感染性疾病或非感染性疾病。由此,利用该系统可以准确鉴定感染性疾病、非感染性疾病。

需要说明的是,将所述宿主基因表达量值和/或微生物相对丰度值输入机器学习模型之前,将宿主基因表达量值和/或微生物相对丰度值进行均一化处理。

需要说明的是,前面针对构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法所描述的特征和优点,同样适用于该系统,在此不再赘述。

鉴定感染性病原体和定植性微生物的方法

在本发明的第五方面,本发明提出了一种鉴定感染性病原体和定植性微生物的方法。根据本发明的实施例,所述方法包括:检测待测生物样本中宿主基因表达量值和/或微生物相对丰度值;将所述宿主基因表达量值和/或微生物相对丰度值输入机器学习模型中,进行分析,得到分析结果;基于所述分析结果,确定提供所述待测生物样本中是否含有感染性病原体或定植微生物。由此,利用该方法可以准确鉴定出感染性病原体和定植性微生物。

根据本发明的实施例,构建所述机器学习模型的方法包括:获取已知含有感染性病原体和定植微生物的生物样本;测定所述已知含有感染性病原体和定植微生物的生物样本中宿主基因表达量值和/或微生物相对丰度值;将测定的宿主基因表达量值和/或微生物相对丰度值进行均一化处理,得到均一化的宿主基因表达量值和/或微生物丰度表达量值;将所述宿主基因表达量值和/或微生物相对丰度值输入训练器,以感染性病原体和定植性微生物作为标记,进行训练,获得鉴定感染性病原体和定植性微生物的机器学习模型。

需要说明的是,前述第一方面所述构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法所描述的特征和优点,同样适用于该构建机器学习模型的方法,在此不再赘述。

根据本发明的实施例,所述病原体为可致机体患有脑炎的病原体,所述宿主基因和微生物分别是如前述第一方面所述方法或第二方面所述用途中关于“所述感染性疾病为感染性脑炎,所述非感染性疾病为非感染性脑炎”中所限定的宿主基因和微生物。

根据本发明的实施例,所述病原体为可致机体患有肺炎的病原体,所述宿主基因和微生物分别是如前述第一方面所述方法或第二方面所述用途中关于“所述感染性疾病为感染性肺炎,所述非感染性疾病为非感染性肺炎”中所限定的宿主基因和微生物。

电子设备

在本发明的第六方面,本发明提出了一种电子设备。根据本发明的实施例,所述电子设备包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序以实现如前述第一方面所述方法或者第二方面所述用途中鉴定感染性疾病和非感染性疾病的方法。由此,通过实施该电子设备,可以准确鉴定感染性疾病和非感染性疾病。

需要说明的是,前面针对构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法、试剂在鉴定感染性疾病和非感染性疾病中的用途所描述的特征和优点,同样适用于该电子设备,在此不再赘述。

可执行的存储介质

在本发明的第七方面,本发明提出了一种可执行的存储介质。根据本发明的实施例,所述存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使得所述处理器执行如前面所述构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法或者试剂在鉴定感染性疾病和非感染性疾病中的用途中鉴定感染性疾病和非感染性疾病的方法。

术语“可执行的存储介质”是指用于存储并且向计算机处理器提供信息(例如,数据和指令)的任何设备或系统。计算机可读介质的实例包括但不限于DVD、CD、硬盘驱动器、磁带和用于通过网络的流媒体的服务器,以及应用程序,如在智能电话和平板电脑上发现的那些。在多个实施方案中,包括数据结构和方法的本发明的多个方面可以存储在计算机可读介质上。也可以在许多设备类型上进行处理和数据,包括但不限于台式计算机和笔记本计算机、平板电脑、智能电话等。

需要说明的是,前面针对第一方面所述构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法、第二方面所述试剂在鉴定感染性疾病和非感染性疾病中的用途所描述的特征和优点,同样适用于该可执行的存储介质,在此不再赘述。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。

实施例1鉴定感染性脑炎和非感染性脑炎

1、样品入组与临床鉴别诊断:

自免脑炎全称为自身免疫性脑炎,它是一种由免疫机制介导的炎症,大多数累及脑白质,表现为白质的脱髓鞘。多数自免脑是由病毒感染或肿瘤所引起的。对于自免脑的诊断,包括临床表现、辅助检查、确诊实验与排除其他病因4个方面。确诊的自身免疫性脑炎(Autoimmune Encephalitis,AE):符合下述诊断条件中的第1~4条。AE的诊断需要综合患者的临床表现、脑脊液检查、神经影像学和脑电图检查等结果,抗神经元抗体阳性是确诊的主要依据。

1.1临床表现:急性或者亚急性起病(<3个月),具备以下1个或者多个神经与精神症状或者临床综合征:(1)边缘系统症状:近事记忆减退、癫痫发作、精神行为异常,3个症状中的1个或者多个。(2)脑炎综合征:弥漫性或者多灶性脑损害的临床表现。(3)基底节和(或)间脑/下丘脑受累的临床表现。(4)精神障碍,且精神心理专科认为不符合非器质疾病。

1.2辅助检查:具有以下1个或者多个的辅助检查发现,或者合并相关肿瘤:(1)脑脊液异常:脑脊液白细胞增多(>5×10

1.3确诊实验:抗神经元表面抗原的自身抗体阳性。抗体检测主要采用间接免疫荧光法(indirect immunofluorescence assay,IIF)。根据抗原底物分为基于细胞底物的实验(cell based assay,CBA)与基于组织底物的实验(tissue based assay,TBA)两种。CBA采用表达神经元细胞表面抗原的转染细胞,TBA采用动物的脑组织切片为抗原底物。CBA具有较高的特异度和敏感度。应尽量对患者的配对的脑脊液与血清标本进行检测,脑脊液与血清的起始稀释滴度分别为1∶1与1∶10。

由临床鉴别诊断为自免脑炎的样品18例以及感染性脑炎样品41例,用于进行下述实验。

2、RNA提取,样品建库和测序:

根据制造商的手册,每个患者的300毫升脑脊液(CSF)样本或阴性的“无模板”对照(NTC)转移到新的无菌管中,直接用TIANamp Micro DNA试剂盒(DP316;天根生物科技,北京)。后加10毫升蛋白酶K和300毫升缓冲GB(RNA)载体,样本在56℃孵化10分钟。300毫升的冷无水乙醇被添加和管孵化在室温下5分钟。液体被转移到一个新的吸附柱和缓冲GD和缓冲PW洗。然后将DNA溶解在40ml的Tris乙二胺四乙酸(TE)缓冲液中。提取的DNA用于构建DNA文库。根据制造商的协议,用Bioruptor Pico设备对前一步提取的DNA进行超声处理,生成200~300bp的片段。根据BGISEQ-100测序平台(bgi-天津,天津,中国)的标准协议构建DNA文库。对DNA进行修复,并在夜间添加末端修复的适配器。结扎后,用PCR扩增DNA,并用AMPure XP珠(Beckman Coulter,Pasadena,CA,USA)纯化。测序前,采用安捷伦2100生物分析仪(Agilent 2100Bioanalyzer,Santa Clara,CA,USA)结合定量PCR进行质量控制。用OneTouch系统对定量文库进行乳液PCR。然后用BGISEQ-100平台对DNA进行测序。

3、数据处理,质控,表达谱定量:

通过对建库成功的样本测序数据进行测序,去除基本rRNA,并通过fastp进行数据过滤得到基础统计数据,每个样本平均得到13M reads,GC含量约为50%,平均基因组比对率为83.67%,基因集比对率为:20.21%。

4、宿主和微生物表达谱差异分析:

将基础统计数据进行人22989个基因的表达定量,鉴定到了22710个可靠表达基因,在非感染性脑炎(按上述临床鉴别诊断鉴定为自身免疫性脑炎的)组(18个样本)与感染性脑炎组(41个样本)进行了差异表达基因的鉴定,最后找到了824个非感染性脑炎组相对于G感染性脑炎组的显著上调基因,9551个显著下调基因。

将基础统计数据进行微生物的表达丰度定量,鉴定到了属级别下3422个可靠表达的微生物物种,在非感染性脑炎(按上述临床鉴别诊断鉴定为自身免疫性脑炎的)组(18个样本)与感染性脑炎组(41个样本)进行了微生物差异表达基因的鉴定,最后找到了334个非感染性脑炎组相对于G感染性脑炎组的显著上调物种,114个显著下调物种。

5、宿主基因表达量模型的构建和验证:

基于差异基因分析结果,筛选在两组(感染性脑炎和非感染性脑炎)丰度差异的log2值大于2倍,且多重假设检验Padj值小于等于0.05的基因,配合样本表达定量信息(即:平均校准后基因丰度值FPKM>1且每组至少50%样本FPKM>1)进行预筛选得到候选基因。

将步骤1临床鉴别诊断为自免脑炎和感染性脑炎的样品各取出一部分用作训练集,剩余部分用作测试集。使用R语言的GLMNET包拟合广义线性模型对训练集中上述候选基因进行建模,模型参数族设为“二项”,因变量为二元变量(自身免疫性脑炎(AE)或非AE),设置lambda值为50,获得多个模型。根据测试集对各个模型进行10次交叉验证,生成每个模型的AUC值。选择AUC最高、基因数量最少的模型作为最佳模型。

结果如图2所示,当以MS4A4E或OPHN1作为鉴别基因所构建的模型的AUC值均较高,使用单MS4A4E基因建模AUC值可达0.82,使用单OPHN1基因建模AUC值可达0.73。因此,将MS4A4E和OPHN1作为核心鉴别基因。仅次于这两者的是如下候选鉴别基因:PLK3、ITGB7、NINJ2、STAT3、VRK1、TMEM147、REXO2、LCMT1、VPS54、POLE3、TESC、EMC3、RNF123、MZT2B、MALSU1、DHRS1、LPCAT4、EAPP、RASAL3、TGS1和RNA5S9,以这些候选鉴别构建的模型也具有较高的AUC值,使用核心鉴别基因MS4A4E和OPHN1和上述所有候选鉴别基因的组合建模的AUC值可达0.91。而使用如下已知自免脑相关基因组合建模的AUC值为0.55:GRIN1、GRIN2A、GRIN2B、GRIN2C、GRIN2D、GRIN3A、GRIN3B、AQP4、LGI1、GABRA1、GRIA1、GRIA2、IgLON5、Caspr2、MOG。

6、微生物相对丰度值模型的构建和验证:

基于步骤4微生物差异基因分析结果,筛选在两组(感染性脑炎和非感染性脑炎)丰度差异的log2值大于2倍,且多重假设检验Padj值小于等于0.05的微生物,配合样本微生物丰度定量信息(平均校准后基因丰度值FPKM>1且每组至少50%样本FPKM>1)进行预筛选得到候微生物。

将上述候选微生物参考步骤5的方法通过建模结合10乘交叉验证,得到核心鉴别微生物Enterobacter,及候选鉴别微生物:Apibacter、Caedibacter、Alternaria、Gudongella、Drancourtella、Nitrincola、Cyphellophora、Acinetobacter、Propionicicella、Zhengella和Halorientalis。

如图3所示,使用单Enterobacter微生物建模AUC值可达0.63,使用上述核心微生物Enterobacter及所有候选鉴别微生物组合建模AUC值可达0.73,而使用非目标微生物组合建模AUC值为0.49。

本实施例中所使用的非目标微生物组合为Ambidensovirus、Lachnoanaerobaculum,Parabacteroides、Paracandidimonas、Dissoconium、Flavonifractor、Porphyromonas,Aparavirus、Ponticaulis、Fluviispira、Bellilinea。

7、宿主基因表达量和微生物相对丰度值构建模型和验证:

将上述筛选出的宿主基因表达量值和微生物相对丰度值分别进行归一化,得到归一化的宿主基因表达量值和微生物相对丰度值,参考步骤5的方法构建机器学习模型。使用微生物丰度和宿主基因组合,AUC值可达0.93(如下附图4所示),相比前述目标自免脑基因组合(AUC值0.91)或目标自免脑微生物组合(AUC值0.73)均显著提高(Wilcox test p<0.05),可以实现准确鉴定感染性脑炎和非感染性脑炎。

实施例2鉴定感染性肺炎和非感染性肺炎

1、样品入组与临床鉴别诊断:

本实例中感染性肺炎样品均为社区获得性肺炎的样品。

社区获得性肺炎是只在院外由细菌、病毒、衣原体和支原体等多种微生物所引起的。主要临床症状是咳嗽、伴或不伴咳痰和胸疼,前驱症状主要有鼻炎样症状或上呼吸道感染的症状,如鼻塞、鼻流清涕、喷嚏、咽干、咽痛、咽部异物感、声音嘶哑、头痛、头昏、眼睛热胀、流泪及轻度咳嗽等。并非每一个社区获得性肺炎患者都会有前驱症状,其发生率依病原体不同一般在30%~65%之间。

社区获得性肺炎的诊断一般认为和其他肺炎一样,患者有发热,咳嗽、脓痰、白细胞增多或减少;胸部X线片表现有片状、叶状、肺泡高密度浸润性病变等,半数以上大于65岁的患者有呼吸道以外的症状,1/3以上的患者无全身感染体征。在发病期间通过检查体温,脉搏、呼吸音及啰音等多数能从临床上做出初步诊断。

由上述临床鉴别诊断为感染性肺炎的样品64例、非感染性肺炎的样品32例,用于进行下述实验。

2、参考实施例1的步骤2~5,提取痰液中的RNA,进行建库和测序,对测序结果进行分析,筛选出核心鉴别基因ABCB6和FNIP1,及候选鉴别基因:CFTRP2、COX6CP2、DNAL4、GDF5-AS1、KLHL41、KRTAP9-2、MIR1283-2、MIR3689D2、MIR654、MRPS6、MTND4LP24、MTNR1A、PTGES3P4、RNA5SP360、RNU6-1029P、RNU6-1044P、RNU6-1144P、RNU6-1183P、RNU6-120P、RNU6-1312P、RNU6-1314P、RNU6-187P、RNU6-493P、RNU6-698P、RNU6-743P、RNU6-832P、RNU6-839P、RNU6-938P、RNU6ATAC37P、TVP23C。

将上述宿主基因表达量构建机器学习模型,可以鉴定鉴定感染性肺炎和非感染性肺炎。图5所示,使用单ABCB6基因建模AUC值可达0.78,使用单FNIP1基因建模AUC值可达0.73,使用上述核心鉴别基因和所有候选鉴别基因组合建模AUC值可达0.79,而使用已知自肺炎相关基因组合建模AUC值为0.67。

本实施例使用的已知肺炎相关基因为IFNA17、IGHD3-3、TRNS1、TRNM、OXPHOS、COX3、ND4L和HMOX1。

3、参考实施例1的步骤4和6,筛选出核心鉴别微生物Scedosporium,以及候选鉴别微生物:Komagataeibacter、Alphabaculovirus、Cyclobacterium、Libanicoccus、Serpentinicella、Lachnospira、Nicoletella、Abyssicoccus和Occidentia。将该微生物相对表达丰度值进行均一化,然后构建机器学习模型,可以鉴定鉴定感染性肺炎和非感染性肺炎,

如图6所示,使用单Scedosporium微生物建模AUC值可达0.56,使用上述核心鉴别微生物和所有候选鉴别微生物组合建模AUC值可达0.62,而使用非目标微生物组合建模AUC值为0.50。

本实施例中所使用的非目标微生物组合为Streptococcus pneumoniae、Staphylococcus aureus、α-hemolytic streptococcus、Klebsiella Pneumoniae、Haemophilus influenzae、Pseudomonas aeruginosa。

4、将上述筛选出的宿主基因表达量值和微生物相对丰度值分别进行归一化,得到归一化的宿主基因表达量值和微生物相对丰度值,构建机器学习模型。使用微生物丰度和宿主基因组合,AUC值可达0.79(如下附图7所示)。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号