首页> 中国专利> 利用谱测量法的微生物的鉴定和结构化分类

利用谱测量法的微生物的鉴定和结构化分类

摘要

本发明涉及用于通过谱测量法来从一组参考物种中鉴定未知微生物的方法,包括以下步骤:第一步骤,用于进行对参考物种进行分类的模型的监督学习;第二步骤,用于预测要鉴定的未知微生物,其包括:获取未知微生物的光谱;以及应用预测模型作为所述光谱和分类模型的函数,从而推断未知微生物所属的至少一种微生物类型。利用结构化多类SVM算法来计算分类模型,其中将该结构化多类SVM算法应用于参考物种在进化和/或临床表型方面的树状层级表示的节点,并且该结构化多类SVM算法包括包含对树的节点之间的邻近性进行量化的所谓的“损失”函数的余量的约束。

著录项

  • 公开/公告号CN104185850A

    专利类型发明专利

  • 公开/公告日2014-12-03

    原文格式PDF

  • 申请/专利权人 生物梅里埃有限公司;

    申请/专利号CN201380016386.9

  • 申请日2013-04-02

  • 分类号G06K9/62(20060101);

  • 代理机构北京林达刘知识产权代理事务所(普通合伙);

  • 代理人刘新宇

  • 地址 法国里昂

  • 入库时间 2023-12-17 03:45:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-10-27

    授权

    授权

  • 2015-03-11

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20130402

    实质审查的生效

  • 2014-12-03

    公开

    公开

说明书

技术领域

本发明涉及利用谱测量法进行的微生物(特别是细菌)的鉴定。

本发明可以特别应用于利用例如MALDI-TOF型(“Matrix-assisted laser  desorption/ionization time oflight(基质辅助激光解吸/电离飞行时间)”)的质 谱法、振动谱测量法和自体荧光谱测量法进行的微生物的鉴定。

背景技术

已知使用谱测量法或光谱法来鉴定微生物、更特别是细菌。为此,制备 未知微生物的试样,之后获取并预处理该试样的质谱、振动光谱或荧光光谱, 特别是用以消除基线并消除噪声。然后利用分类工具将预处理后的光谱的峰 与根据一组参考光谱而构建的知识库中的数据进行“比较”,其中各参考光谱 与所鉴定的微生物相关联。

更特别地,传统上通过分类进行的微生物的鉴定包括:

■第一步骤,用于根据物种预先已知的微生物的所谓的“训练”光谱通过 监督学习来确定分类模型,其中该分类模型定义在训练光谱之中区 分这些不同物种的一组规则;

■第二步骤,用于通过以下来鉴定特定的未知微生物:

○获取未知微生物的光谱;以及

○向所获取到的光谱应用根据分类模型所构建的预测模型,以确定 未知微生物所属的至少一个物种。

通常,谱测量法鉴定装置包括谱仪和接收所测量到的光谱并实现上述第 二步骤的数据处理单元。第一步骤由确定分类模型和预测模型并且在消费者 使用之前将模型集成于机器中的装置的制造商来实现。

支持向量机或SVM型的算法是传统的监督学习工具,特别适用于目的在 于对大量物种进行分类的高维分类模型的学习。

然而,尽管SVM特别适用于高维,但利用这些算法来确定分类模型非常 复杂。

首先,传统上使用的SVM算法属于所谓的“扁平”算法,其中这些“扁平” 算法等同地考虑要分类的物种,并且作为必然结果,还将分类错误视为等同 的。因而,从算法的角度来看,两个接近细菌之间的分类错误与细菌和真菌 之间的分类错误具有相同的值。然后,由用户基于他的用于生成训练光谱的 微生物知识、实际光谱的结构并且基于他的算法知识来修改“扁平”SVM算 法,用于使其分类错误的严重程度减少到最低限度。不考虑修改复杂算法的 难度,这种修改高度依赖于用户自身。

然后,尽管针对各微生物物种将存在用于构建分类模型的约十个或几十 个不同的训练光谱,但该数量仍然非常低。不仅训练光谱的种类与物种的全 部种类相比可能非常小,而且有限数量的实例也导致机械地恶化了各光谱的 特异性。由此,所获得的分类模型对于特定物种而言可能不准确并且使未知 微生物的后续预测步骤非常难。这里,再次由用户来解释通过鉴定所给出的 结果以知晓其相关程度,从而最终从中推导出可利用的结果。

发明内容

本发明的目的在于提供一种基于通过SVM型监督学习方法所获得的分 类模型、利用谱测量法或光谱法来鉴定微生物的方法,其中该方法使鉴定错 误的严重程度减少到最低限度,由此使得能够实质上更加可靠地鉴定未知微 生物。

为此,本发明的目的是一种通过谱测量法来从一组参考物种中鉴定未知 微生物的方法,包括以下步骤:

■第一步骤,用于对参考物种的分类模型进行监督学习,包括:

○针对各物种,获取属于所述物种的所鉴定微生物的一组训练光谱;

○将所获取到的各训练光谱变换成根据预定格式的一组训练数据以 供多类支持向量机型算法使用;以及

○利用所述多类支持向量机型算法来将所述参考物种的所述分类模 型确定为所述一组训练数据的函数,

■第二步骤,用于预测要鉴定的未知微生物,包括:

○获取所述未知微生物的光谱;以及

○根据所述光谱和所述分类模型来应用预测模型,以推断所述未知 微生物所属的至少一种类型的微生物。

根据本发明:

■对所获取到的各训练光谱进行变换包括:

○将所述光谱变换成表示所述训练光谱的结构的数据矢量;

○通过利用预定矢量计算所述数据矢量的张量积来生成根据所述预 定格式的数据的集合,其中所述预定矢量以双射方式表示微生物 的所述参考物种在所述参考物种的进化和/或临床表型方面的树 状层级表示中的位置;以及

■所述分类模型是与所述层级表示的树的节点相对应的类的分类模型, 其中所述多类支持向量机型算法包括通过对标准的在包括所谓的 “损失函数”的余量约束下的单一优化问题进行求解来确定所述分类 模型的参数,所述标准根据所述分类模型的参数来表示,所述损失 函数对树节点之间的邻近性进行量化。

换句话说,本发明在微生物的鉴定所用的分类模型的构建时所使用的监 督学习算法中具体引入了迄今为止尚未考虑的先验信息、即微生物物种在进 化和/或临床表型方面的层级树状表示。这种层级树状表示例如是分类树,其 中该分类树的结构基本通过物种的进化来引导,并且因此该分类树本质上包 含物种之间的相似性或邻近性的概念。

因而,SVM算法不再是“扁平”算法,其中物种不再是可互换的。作为必 然结果,该算法不再将分类错误视为相同的。通过在要分类的物种之间建立 链接,根据本发明的方法由此明确地和/或隐含地考虑到这些物种具有共同的 信息因而还具有非共同信息这一事实,因此有助于对物种进行区分,并由此 使分类错误以及针对各物种的小量训练光谱的影响减少到最低限度。

通过由于张量积所引起的数据和变量的结构化而将这种先验信息引入 算法。因而,由于两个物种在进化和/或临床表型方面接近,因此与这些物种 相关联的算法的数据和变量的结构更加相似。由于SVM算法是目的在于在约 束下优化成本函数的算法,因而优化必然考虑到与这些物种相关联的结构之 间的相似性和差异性。

在某种程度上,可以陈述为通过数据和变量的结构化来“定性地”考虑物 种之间的邻近性。根据本发明,还通过SVM算法的约束的定义中所涉及的损 失函数的特定选择“定量地”考虑物种之间的邻近性。物种的这种“定量”邻近 性例如根据在参考物种的树上所定义的“距离”来确定、或者可以完全独立于 该距离(例如,根据用户的特定需求)来确定。由此得到分类错误的最小化以 及相对极小量的训练光谱的鉴定的鲁棒性的增长。

最终,分类模型现在涉及层级表示的树(包括根和叶)的节点的分类,并 且不再仅涉及物种。特别地,如果在对未知微生物的光谱进行预测期间、难 以以最小的确定程度确定微生物所属的物种,则该预测能够鉴定未知微生物 属于微生物的哪个更大群(属、科、目…)。这些宝贵信息例如可用于实现所 述鉴别群所特有的其它类型的微生物鉴定。

根据实施例,与节点对相关联的损失函数等于所述层级表示的树中的使 节点分离的距离。由此,使算法针对所述树优化,并且损失函数不依赖于用 户的技能和知识。

根据实施例,与节点对相关联的损失函数各自大于所述层级表示的树中 的使节点分离的距离。因而,在分类模型的构建中可以引入其它类型的先验 信息。特别地,可以通过选择函数值大于树中的距离的损失函数来强制进行 算法上物种的可分离性。

根据实施例,通过以下来计算所述损失函数:

■将所述损失函数设置为初始值;

■实现包括以下的处理的至少一次迭代:

○执行所述多类支持向量机型算法,以根据所述损失函数的当前值 来计算分类模型;

○根据所计算出的分类模型来应用预测模型,并且将所述预测模型 应用至属于所述参考物种的所鉴定微生物的一组校准光谱,其中 所述一组校准光谱不同于所述一组训练光谱;

○根据通过将所述预测模型应用于所述一组校准光谱所返回的结果 来针对各物种计算分类用性能标准;以及

○通过根据所计算出的性能标准修改所述损失函数的当前值来计算 所述损失函数的新的当前值。

特别地,损失函数使得能够设置与训练光谱和/或所使用的SVM算法有 关的物种的可分离性。特别地,可以检测可分离性低的物种并且实现修改损 失函数以提高该可分离性的算法。

在第一变形中,

■所述性能标准的计算包括计算混淆矩阵作为通过应用所述预测模型 所返回的结果的函数;以及

■计算所述损失函数的新的当前值作为所述混淆矩阵的函数。

由此,对引入了层级表示的树中所包含的分类法和/或临床表型信息的 影响进行评估,并且通过选择损失函数作为该影响的函数来使其余的错误或 分类缺陷减少到最低限度。

根据第二变形,

■所述性能标准的计算包括计算混淆矩阵作为通过应用所述预测模型 所返回的结果的函数;以及

■所述损失函数的新的当前值各自与第一损失矩阵和第二矩阵的组合 的分量相对应,其中所述第一损失矩阵列出所述层级表示的树中的 使所述参考物种分离的距离,以及所述第二矩阵是作为所述混淆矩 阵的函数所计算出的。

正如在第一变形中那样,在将与树中物种之间的距离有关的定量信息保 持在损失函数中的情况下,对其余的错误和分类缺陷进行校正。

特别地,根据以下关系式来计算所述损失函数的当前值:

Δ(yi,k)=α×Ω(yi,k)+(1-α)×Δconfusion(yi,k)

其中,Δ(yi,k)是针对所述树的节点对(yi,k)的所述损失函数的当前值, Ω(yi,k)和Δconfustion(yi,k)分别是所述第一损失矩阵和所述第二矩阵,并且α是 0~1的标量。更特别地,标量α为0.25~0.75、尤其是0.25~0.5。

这种凸组合提供了鉴定的高准确性和鉴定错误的严重程度的最小化。

更特别地,将所述损失函数的所述初始值针对不同节点的对设置为0, 并且针对其它情况设置为1。

根据实施例,根据以下关系式来确定所述层级表示的树中的使两个节点 n1、n2分离的距离Ω:

Ω(n1,n2)=depth(n1)+depth(n2)-2×depth(LCA(n1,n2))

其中,depth(n1)和depth(n2)分别是节点n1、n2的深度,以及depth(LCA(n1,n2))是 所述树中的节点n1、n2的最近共同祖先LCA(n1,n2)的深度。这样定义的距离Ω 是在树中能够定义的最小距离。

根据实施例,所述预测模型是针对要鉴定的所述未知微生物所属的树的 节点的预测模型。因而,可以预测作为与物种相对应的叶的祖先的节点。

根据实施例,在以下约束下,

ξi0,i[1,N]

<W,Ψ(xi,yi)><W,Ψ(xi,k)>+f(Δ(yi,k),ξi),i[1,N],kY\yi

根据以下关系式用公式表示所述优化问题:

minW,ξi12||W||2+CΣi=1Nξi

其中,在这些表达式中:

■N是训练光谱的数量;

■K是参考物种的数量;

■T是所述层级表示的树中的节点的数量,并且Y=[1,T]是用作所述层 级表示的树的节点的标记编号的整数的集合;

■是分别与所述树的节点相关联的权重矢量的串接(w1w2...wT)T,其中p是表示所述训练光谱的结构的矢量 的基数;

■C是具有预定设置的标量;

i[1,N],ξi是标量;

■X={xi},i∈[1,N]是表示所述训练光谱的矢量的集合;

■yi是与训练矢量xi的参考物种相对应的所述层级表示的 树中的节点的标记;

Ψ(x,k)=xΛ(k),其中:

○是表示训练光谱的矢量;

○是以双射方式表示所述层级表示的树中的参考节点 k∈Y的位置的预定矢量;以及

○是空间和空间之间的张量积;

■<W,ψ>是在空间上的标量积;

■Δ(yi,k)是与所述层级表示的树中的标记分别为yi和k的节点对相关联 的损失函数;

■f(Δ(yi,k),ξi)是标量ξi和损失函数Δ(yi,k)的预定函数;以及

■符号“\”指定排除。

在第一变形中,根据以下关系式来定义函数f(Δ(yi,k),ξi):

f(Δ(yi,k),ξi)=Δ(yi,k)-ξi。在第二变形中,根据以下关系式来定义函数 f(Δ(yi,k),ξi):f(Δ(yi,k),ξi)=1-ξiΔ(yi,k)

特别地,所述预测步骤包括:

■根据所述多类支持向量机型算法的所述预定格式来将要鉴定的所述 未知微生物的光谱变换成矢量xm

■根据以下关系式来应用预测模型:

Tidem=argmaxk(s(xm,k)) k∈[1,T]

其中,Tident是针对所述未知微生物所鉴定出的所述层级表示的节点 的标记编号,s(xm,k)=<W,Ψ(xm,k)>并且

本发明的目的还在于一种用于通过质谱法来鉴定微生物的装置,包括:

■谱仪,其能够生成要鉴定的微生物的质谱;以及

■计算单元,其能够通过实现上述类型的预测步骤,来鉴定与所述谱仪 所生成的光谱相关联的微生物。

附图说明

通过参考附图阅读仅作为示例提供的以下说明,将更好地理解本发明, 其中相同的附图标记指定相同或相似的元件,其中:

■图1是根据本发明的鉴定方法的流程图;

■图2是例如混合表型和进化信息的混合型分类树的示例;

■图3是根据本发明所使用的层级表示的树的示例;

■图4是与树中的节点的位置相对应的矢量的生成的示例;

■图5是根据本发明的损失函数计算方法的流程图;

■图6是示出不同鉴定算法的各物种的准确性的标绘图;

■图7是示出这些不同算法的预测错误的分类成本的标绘图;

■图8是示出使用与层级表示的树中的距离和混淆损失函数的不同凸组 合相等的损失函数的算法的各物种的准确性的标绘图;以及

■图9是针对不同凸组合的预测错误的分类成本的标绘图。

具体实施方式

现在将参考图1的流程图说明应用于MALDI-TOF谱测量法的根据本发 明的方法。

该方法从步骤10开始,其中该步骤10例如通过MALDI-TOF(“基质辅助 激光解吸/电离飞行时间”)质谱法来获取要集成在知识库中的新微生物物种 的一组训练质谱。MALDI-TOF质谱法本身是公知的并且将不在下文中作进 一步的详细说明。例如,可以参考Jackson O.Lay的文献,“Maldi-tof  spectrometry of bacteria”,Mass Spectrometry Reviews,2001,20,172-194。然 后,如本身已知的,对所获取到的光谱进行预处理,特别是对这些光谱进行 去噪并去除其基线。

然后,在步骤12中,例如通过基于局部最大值的检测的峰检测算法来鉴 定存在于所获取到的光谱中的峰。由此生成针对所获取到的各光谱的、包括 光谱峰的位置和强度的峰的列表。

有利地,在Thomson的预定范围[mmin;mmax]、优选为Thomson的范围 [mmin;mmax]=[3,000;17,000]中鉴定峰。实际上,已经观察到在质荷比的该范围中 包含有足以鉴定微生物的信息,因而无需考虑更宽的范围。

该方法在步骤14中继续量化或“分级”(binning)步骤。为了实现此步骤, 将范围[mmin;mmax]分割成例如恒定的预定宽度的间隔,并且针对包括多个峰的 各间隔,保持一个峰,其中有利地,该峰具有最高强度。因而,针对所测量 到的各光谱生成矢量。该矢量的各分量与量化间隔相对应,并且将针对该间 隔所保持的峰的强度作为值,其中值“0”意味着在间隔中没有检测到峰。

作为变形,通过在相应间隔中存在峰的情况下将矢量的分量的值设置为 “1”、并且在该间隔中不存在峰的情况下将该值设置为“0”,来对矢量进行“二 值化”。这样使得提高了随后进行的分类算法校准的鲁棒性。本发明人的确 注意到特别是与鉴定细菌有关的信息基本包含在峰的有和/或无中,并且强度 信息不太相关。可以进一步观察到强度针对各光谱以及/或者针对各谱仪的可 变性极大。由于该可变性,难以考虑到分类工具中的原始强度值。

并行地,将以下称为“训练矢量”的训练光谱峰矢量存储在知识库中。知 识库由此列出被称为“参考物种”的K个微生物物种以及N个训练物种 的一个集合X={xi}i∈[1,N],其中p是针对质谱所保留的峰的数量。

同时或连续地,在16中,根据参考物种在进化和/或临床表型方面的树 状层级表示来对所列出的物种K进行分类。

在第一变形中,层级表示是应用于所列出的参考物种的活体的分类表 示。如本身已知的,活生物体的分类学是根据从最一般的到最特别的以下等 级对各活生物体进行分类的活体的层级分类:域、界、门、纲、目、科、属、 种。所使用的分类学例如是由“国家生物技术信息中心”(NCBI)所确定的。因 而,活生物体的分类学隐含包括进化数据,其中在进化水平方面接近的微生 物与在进化方面更远的微生物相比包括更多共同的分量。由此,进化“邻近 性”对光谱的“邻近性”产生影响。

在第二变形中,层级表示是通过考虑例如物种进化特征的系统发育特征 以及例如细菌的革兰氏(GRAM)+/-等的表型特征所获得的“混合”分类表示, 其中该表型特征基于其细胞膜的厚度/渗透性、需氧或厌氧特性。例如在图2 中针对细菌示出这种表示。

通常,层级表示的树是利用由中间节点构成的单个路径来将与物种相对 应的末端节点或“叶”连接至“根”节点的图形表示。

在下一步骤18中,利用整数k∈Y=[1,T]对树节点或“分类单元”进行编 号,其中T是树中的(包括叶和根的)节点的数量,并且将树变换成二元矢量 的集合Λ={Λ(k)}k∈[1,T]

更特别地,如列出20个物种中的47个节点的图3的树所示,例如根据从 根到叶的不同路径来将树的节点T分别编号为1~T。然后,矢量Λ(k)的分量与 如此编号后的节点相对应,其中矢量Λ(k)的第一个分量与编号为“1”的节点 相对应,第二个分量与编号为“2”的节点相对应,等等。将矢量Λ(k)的、与 树的从节点k到根(包括节点k和根)的路径中的节点相对应的分量设置为等于 1,并且将矢量Λ(k)的其它分量设置为等于0。图4示出针对5个节点的简化树 的矢量Λ(k)的生成器。矢量Λ(k)如此以双射方式或唯一地表示层级表示的树 中的节点k的位置,并且矢量Λ(k)的结构表示节点k的支配链接。换句话说, 集合Λ={Λ(k)}k∈[1,T]是层级表示的树的根和节点之间的所有路径的矢量表示。

保持这些链接的树的其它矢量表示当然也是可以的。

为了更好地理解以下内容,引入了以下标记法。各训练矢量xi与利用整 数yi∈[1,T]、即层级表示的树中的相应叶的编号所标记的特定参考物种相对 应。例如,第10个训练矢量x10与图3的树的叶编号“24”所表示的物种相对应, 在这种情况下,y10=24。标记yi由此是指编号或者集合[1,T]中的光谱的物 种的“标记”,其中标记编号yi的集合E={yi}的基数当然等于参考物种的数 量K。因而,例如参考图3, E={7,8,12,13,16,17,23,24,30,31,33,34,36,38,39,40,42,43,46,47}。独立于训练矢 量xi,在以下关系式中直接使用来自Y=[1,T]的整数、例如整数“k”的情况 下,该整数指树中的编号为“k”的节点。

在下一步骤20中,根据以下关系式来生成新的“结构化训练”矢量

Ψ(xi,k)=xiΛ(k)i[1,N],k[1,T]---(1)

其中,是空间和空间之间的张量积。因而, Ψ(xi,k)是包括维度为p的T个块的串接的矢量,其中在这T个块中,与等于矢 量Λ(k)的一个单位的分量相对应的块等于矢量xi,并且其它块等于的零矢 量0p。再次参考图4的示例,与节点编号“5”相对应的矢量Λ(5)等于101010,并且 矢量Ψ(xi,5)等于xi0pxi0pxi0p.

因而,可以观察到在层级表示的树中节点彼此越近,这些节点的结构化 矢量所共用的共同的非零块越多。相反,节点越远,这些节点的结构化矢量 所共用的共同的非零块越少,因而这种观察特别适用于表示参考物种的叶。

在下一步骤22中,计算应用于层级表示的树的所有节点的结构化多类 SVM型算法的损失函数。

更特别地,在以下约束下,

ξi0,i[1,N]---(3)

<W,Ψ(xi,yi)><W,Ψ(xi,k)>+f(Δ(yi,k),ξi),i[1,N],kY\yi---(4)

根据以下关系式来定义基于根据本发明的层级表示而结构化的多类 SVM算法。

minW,ξi12||W||2+CΣi=1Nξi---(2)

其中,在这些表达式中:

■是分别与树的节点yi相关联的权重矢量的串接(w1w2...wT)T

■C是具有预定设置的标量;

i[1,N],ξi是标量;

■<W,ψ>是这里在空间内的标量积;

■Δ(yi,k)是针对由标记为yi的物种和标记为k的节点形成的对所定义的 损失函数;

■f(Δ(yi,k),ξi)是标量ξi和损失函数Δ(yi,k)的预定函数;以及

■符号“\”指定排除,因而表达式“”意味着“除参考节点yi以外的 集合Y的所有节点”。

如可以看出,借助约束将诸如通过层级表示而被编码等的以及诸如引入 到结构化训练矢量的结构中等的物种之间的邻近性考虑进来。特别地,在树 中,物种彼此越近,这些物种的数据越关联。因而,与认为在物种之间不存 在层级并且认为所述物种可互换的传统多类SVM算法相比,利用根据本发明 的算法,参考物种不再被视为可互换的。

此外,根据本发明的结构化多类SVM算法利用损失函数Δ(yi,k)定量地 考虑到参考物种之间的邻近性。

根据第一变形,根据以下关系式来定义函数f。

f(Δ(yi,k),ξi)=Δ(yi,k)-ξi    (5)

根据第二变形,根据以下关系式来定义函数f。

f(Δ(yi,k),ξi)=1-ξiΔ(yi,k)---(6)

在有利实施例中,根据以下关系式,损失函数Δ(yi,k)等于在层级表示的 树中所定义的距离Ω(yi,k)。

Δ(yi,k)=Ω(yi,k)=depth(yi)+depth(k)-2×depth(LCA(yi,k))   (7)

其中,depth(yi)和depth(k)分别是所述树中的节点yi和k的深度,并且 depth(LCA(yi,k))是所述树中的节点yi、k的追溯节点或最近的共同的“祖先”节 点LCA(yi,k)的深度。节点的深度例如被定义为使该节点与根节点分离的节点 数量。

作为变形,损失函数具有与层级表示的性质不同的性质。如下面将进一 步详细说明的,这些函数例如由用户按照其技能和/或算法结果根据其它层级 表示来定义。

一旦已经计算出了损失函数,则根据本发明的方法在24中继续诸如关系 式(2)、(3)、(4)、(5)或者(2)、(3)、(4)、(6)中所定义等的多类SVM算法的实 现。

因而,通过算法所产生的结果是作为树节点的分类模型的矢量W,其中 所述矢量W是根据以下内容推导出的:训练矢量xi中所包含的信息的组合、 这些训练矢量的关联参考物种在树中的定位、层级表示中所包含的与物种之 间的邻近性有关的信息、以及损失函数中所包含的与物种之间的距离有关的 信息。更特别地,各权重矢量wl(l∈[1,T])表示形成树的节点“l”的实例和树 的其它节点k∈[1,T]\l的实例之间的边界的的超平面的法向矢量。

在第一计算机系统中一次实现分类模型的训练步骤12~24。然后将分类 模型W=(w1w2...wT)T和矢量Λ(k)存储在包括MALDI-TOF型谱仪和与该谱仪 连接的计算机处理单元的微生物鉴定系统中。该处理单元接收谱仪所获取到 的质谱并且实现以下生产规则,其中该生产规则基于模型W和矢量Λ(k)来判 断质谱仪所获取到的质谱与层级表示的树的哪些节点相关联。

作为变形,例如,利用连接至因特网的个人计算机来对用户可访问的远 程服务器进行预测,其中该远程服务器也连接至因特网。用户将MALDI-TOF 型质谱仪所获得的未处理的质谱加载到服务器,然后该服务器实现预测算法 并且将该算法的结果返回至用户的计算机。

更特别地,对于未知微生物的鉴定,该方法包括以下步骤:步骤26,用 于获取该未知微生物的一个或多个质谱;步骤28,用于对所获取到的质谱进 行预处理;以及步骤30,用于检测质谱的峰,并且确定例如前面关于步骤 10~14所述等的峰矢量

在下一步骤32中,根据以下关系式,针对层级表示的树中的各节点计算 结构化矢量,其中k∈Y=[1,T]:

Ψ(xm,k)=xmΛ(k)---(8).

之后,根据以下关系式来计算与节点k相关联的得分:

x(xm,k)=<W,Ψ(xm,k)>  (9)。

然后,例如,未知微生物在树中的所鉴定节点Tident∈[1,T]是与最高得分 相对应的节点:

Tident=argmaxk(s(xm,k)) k∈[1,T]  (10)。

其它预测模型当然也是可以的。

除与所鉴定分类单元Tident相关联的得分以外,还通过预测算法计算分类 单元Tident的祖先节点和子节点(在存在的情况下)的得分。因而,例如,如果 用户将分类单元Tident的得分视为低,后者具有与祖先节点相关联的得分,因 而具有附加的更为可靠的信息。

刚刚说明了根据层级表示的树中所定义的最小距离来计算损失函数 Δ(yi,k)的本发明的特定实施例。

现在将说明损失函数Δ(yi,k)的其它可选计算。

在第一变形中,根据使得能够获得更加鲁棒的分类模型以及/或者使得 易于对关系式(2)、(3)和(4)所定义的优化问题进行求解的先验信息来修改关 系式(7)中所定义的损失函数。例如,可以将一对节点(yi,k)的损失函数 Δ(yi,k)选择为低、特别是小于距离Ω(yi,k),这意味着在这两个节点之间容 许鉴定错误。以机械方式解除针对一对或多对物种的约束实际是增加针对其 它物种对的约束,从而将该算法设置为更加强有力地区分其它物种对。同样, 可以将一对节点(yi,k)的损失函数Δ(yi,k)选择为非常高、特别是大于距离 Ω(yi,k),以强制该算法区分节点(yi,k),并由此将这些节点之间的鉴定错误 减少到最低限度。特别地,可以利用参考物种对各自的损失函数来解除或增 强针对这些参考物种对的约束。

在图5的流程图所示的第二变形中,根据为计算分类模型W所实现的 SVM算法的估计性能来自动进行损失函数Δ(yi,k)的计算。

计算损失函数Δ(yi,k)的方法从以下开始:在40中,选择这些损失函数的 初始值。例如,在yi=k的情况下,Δ(yi,k)=0,并且在yi≠k的情况下, Δ(yi,k)=1,因而函数f化简为f(Δ(yi,k),ξi)=1-ξi。针对损失函数的其它 初始值当然也是可以的,于是利用具有损失函数的初始值的关系式(5)或(6) 的函数f(Δ(yi,k),ξi)来替换上述算法的约束中所出现的函数f(ξi)=1-ξi

该计算方法继续针对所选择的损失函数Δ(yi,k)估计SVM算法的性能。 这种估计包括以下步骤:

■在42中,根据损失函数的值来执行多类SVM算法以计算分类模型;

■在44中,基于所计算出的分类模型来应用预测模型,其中将该预测模 型应用于知识库的校准矢量的集合与训练矢量xi相同, 根据与参考物种相关联的光谱来生成校准矢量其中各矢量与 相应参考物种的标记相关联;以及

■在46中,根据预测结果来确定混淆矩阵。

校准矢量例如是与训练矢量xi同时获取到的。特别地,针对各参考物 种,将与该参考物种相关联的光谱分布到训练集合和校准集合内,其中训练 矢量和校准矢量分别是从所述训练集合和校准集合中生成的。

损失函数计算方法在48中继续根据所计算出的混淆矩阵来修改损失函 数的值。然后所获得的损失函数由SVM算法所使用以计算最终的分类模型 W,或者在50中根据步骤48中修改后的损失函数的值来执行测试,以知晓是 否通过实现步骤42、44、46、48计算了损失函数的新值。

在损失函数计算方法的第一示例中,与SVM算法的执行相对应的步骤42 是一对多型算法。该算法不是层级式的并且仅考虑利用整数k∈[1,K]所指代 的参考物种,并且在以下约束下,

ξi0,i[1,N]---(12)

qi(<wk,x1>+bk)1-ξ1i[1,N]---(13)

根据以下关系式来对各参考物种k的优化问题进行求解。

minwk,ξi12||wk||2+CΣi=1Nξi---(11)

其中,在这些表达式中:

■是权重矢量并且是标量;以及

■qi∈{-1,1},其中如果i=k,则qi=1,并且如果i≠k,则qi=-1。

通过以下关系式来提供预测模型,并且在步骤44中将该预测模型应用于 各校准矢量

G(xi~)=argmaxk<wk,xi~>+bkk[1,K]---(14)

然后,在步骤46中,根据以下关系式来计算物种间混淆矩阵

其中,FP(i,k)是通过预测模型预测为属于物种k的物种i的校准矢量的数 量。

此外,在46中,然后根据以下关系式来计算归一化的物种间混淆矩阵

其中,Ni是针对标记为i的物种的校准矢量的数量。

最后,步骤46以将归一化的节点间混淆矩阵作为归一化混 淆矩阵的函数进行计算而结束。例如,使用从叶到根的值的 传播图来计算参考物种的不同节点的对(i,k)的值特别地,对于已 针对集合{iC}×{kC}的各节点对(iC,kC)计算出矩阵的分量的层级表 示的树的节点对(i,k)∈[1,T]2(其中,{iC}和{kC}分别是节点i和k的“子”节点的 集合),将针对节点对(i,k)的矩阵的分量设置为等于分量的平均值。

在步骤48中,将各节点对(yi,k)的损失函数Δ(yi,k)计算为归一化的节点 间混淆矩阵的函数。

根据步骤48的第一选项,根据以下关系式来计算损失函数Δ(yi,k)。

Δ(yi,k)=0siyi=k1+λ×C~taxo(yi,k)siyik---(17)

其中,λ≥0是控制混淆矩阵在损失函数中的贡献的预定标量。

根据步骤48的第二选项,根据以下关系式来计算损失函数Δ(yi,k)。

其中,是向下一个最大整数取整,β≥0和l>0是设置混淆矩阵在 损失函数中的贡献的预定标量。例如,通过设置l=10,混淆矩阵针对节 点(yi,k)之间的混淆的每10%贡献β。

根据步骤48的第三选项,根据关系式(17)或(18)来计算损失函数Δ(yi,k) 的第一分量Δconfusion(yi,k),之后根据以下关系式来计算损失函数Δ(yi,k)。

Δ(yi,k)=α×Ω(yi,k)+(1-α)×Δconfusion(yi,k)  (19)

其中,0≤α≤1是对仅由混淆矩阵所确定的损失函数和仅由层级表示的 树中的距离所确定的损失函数之间的权衡进行设置的标量。

在损失函数计算方法的第二示例中,步骤42与多类SVM算法的执行相对 应,其中该多类SVM算法根据在约束(21)、(22)下的

ξi0,i[1,N]---(21)

<wyi,xi><wk,xi>+1-ξii[1,N],k[1,K]\yi---(22),

以下关系式

minwk,ξi12Σk=1K||wk||2+CΣi=1Nξi---(20),

来求解针对所有参考物种k∈[1,K]的单一的优化问题,其中各训练矢量xi与 以整数yi∈[1,K]作为标记编号的参考物种相关联,其中,是与物种k相关联的权重矢量。

通过以下关系式来提供预测模型,并且在步骤44中,将该预测模型应用 于各校准矢量

G(xi~)=argmaxk<wk,xi~>k[1,K]---(23)

第二示例的步骤46和48与第一示例的步骤46和48相同。

在损失函数计算方法的第三示例中,步骤42与根据关系式(2)、(3)、(4)、 (5)或(2)、(3)、(4)、(6)基于层级表示来执行结构化分类SVM相对应。在步骤 44中,然后将根据以下关系式的预测模型应用于各校准矢量

G(xi~)=argmaxk<W,Ψ(xi~,k)>kE---(29)

其中,是与参考物种相对应的层级表示的树的节点的标记的集合。

然后,根据对校准矢量的预测结果来推导物种间混淆矩阵 并且以与第一示例相同的方式执行损失函数计算方法。

当然,可以根据针对树中的所有分类单元的预测结果来计算混淆。

已经说明了如下实施例:其中为计算分类模型而实现的SVM算法是基于 层级表示的结构化多类SVM模型,特别地,该SVM算法是根据关系式(2)、 (3)、(4)、(5)或关系式(2)、(3)、(4)、(6)的算法。

将通过算法所设想的类、即前述实施例中的层级表示的树的节点之间的 先验邻近性进行量化的损失函数Δ(yi,k)的原理同样适用于不基于层级表示 的多类SVM算法。对于这些算法,所考虑的类是这些算法中利用整数 k∈[1,K]表示的参考物种,并且损失函数仅针对参考物种对、因而仅针对配 对(yi,k)∈[1,K]2而定义。

特别地,在另一实施例中,用于计算分类模型的SVM算法是根据关系式 (20)、(21)和(22)、即根据关系式(20)、(21)和(22bis)(其中,利用根据关系式 (5)或关系式(6)的函数f(Δ(yi,k),ξi)来替换关系式(22)的函数f(ξi)=1-ξi)的 多类SVM算法:

<wyi,xi><wk,xi>+f(Δ(yi,k),ξi)i[1,N],k[1,K]\yi---(22bis).

从而,为鉴定未知微生物的物种所应用的预测模型是根据关系式(23)的 模型。

现在将在以下的实验条件下说明根据本发明的方法的实验结果。

■利用MALDI-TOF型质谱仪获得细菌的571个光谱;

■细菌属于20个不同的参考物种并且对应于200个以上的不同菌株;以 及

■在诸如图3所示等的47个节点的分类树中以层级方式组织20个物种;

■根据质谱来生成训练矢量和校准矢量,并且这些训练矢量和校准矢量 各自列出根据质荷比的1,300个峰的强度。因而,

通过如下定义的交叉验证来评估根据本发明的方法的性能:

■针对各菌株,通过从训练矢量的总集合中去除与该菌株相对应的矢量 来定义训练矢量的集合;

■针对如此所获得的各集合,基于如以上所述等的SVM型算法来计算分 类模型;以及

■向与从训练矢量的集合中所去除的菌株相对应的矢量应用与所获得 的分类模型相关联的预测模型。

此外,考虑不同的指标来评估该方法的性能:

■作为适当分类光谱的比率的微观准确性;

■各物种的准确性,其中物种的准确性是该物种的适当分类光谱的比 率;

■作为各物种的准确性的平均值的宏观准确性。不同于微观准确性,宏 观准确性对分别与参考物种相关联的训练矢量的集合的基数更不敏 感;

■预测的“分类”成本,其中该“分类”成本是层级表示的树中光谱的参考 物种和针对该光谱所预测的物种之间的最短路径的长度,例如被定 义为等于根据关系式(7)的距离Ω(yi,k)。与将预测错误视为同样重要 的微观准确性、各物种的准确性和宏观准确性不同,分类成本使得 能够对各预测错误的严重程度进行量化。

已经分析并比较了以下算法:

■“SVM_one-vs-all”:根据关系式(11)、(12)、(13)、(14)的算法;

■“SVM_cost_0-1”:根据关系式(20)、(21)、(22)、(23)的算法;

■“SVM_cost_taxo”:根据关系式(20)、(21)、(22bis)、(23)的算法,其中 f(Δ(yi,k),ξi)是根据关系式(6)和(7)而定义的;

■“SVM_struct_0-1”:根据关系式(2)、(3)、(4)、(8)~(10)的算法,其中 f(Δ(yi,k),ξi)=1-ξi

■“SVM_struct_taxo”:根据关系式(2)、(3)、(4)、(8)~(10)的算法,其中 f(Δ(yi,k),ξi)是根据关系式(6)和(7)而定义的;

针对这些算法各自所保留的参数C是提供最佳的微观准确性和宏观准确 性的参数。

下表针对这些算法各自列出微观准确性和宏观准确性。图6示出各算法 的各物种的准确性,图7针对各算法根据其分类成本示出预测错误的数量。

SVM算法 微观准确性 宏观准确性 SVM_one-vs-all 90.4 89.2 SVM_cost_0-1 90.4 89.0 SVM_cost_taxo 88.6 86.0 SVM_struct_0-1 89.2 88.5 SVM_struct_taxo 90.4 89.2

这些结果以及特别是上表和图6表明根据层级表示的数据表示和损失函 数这两者影响微观准确性和宏观准确性方面的预测准确性。在这方面,应当 注意,本发明的“SVM_struct_taxo”算法与传统的“一对多”算法至少相等同地 竞争。然而,如图7所示,算法的预测错误的严重程度不同。特别地,没有 考虑参考物种之间的层级表示的“SVM_one-vs-all”算法和“SVM_cost_0-1”算 法产生高严重程度的预测错误。使严重错误的数量减少到最低限度的算法是 没有检测到大于4个的分类成本错误的“SVM_cost_taxo”算法。然而, “SVM_cost_taxo”算法在微观准确性和宏观准确性方面的性能较低。

因而,根据前述内容可以推导出,引入参考物种的采用层级表示(特别 是分类和/或临床表型表示)形式的先验信息以及采用损失函数形式的物种之 间的定量距离,使得能够管理在一方面的未知微生物的鉴定的全局准确性以 及另一方面的鉴定错误的严重程度之间的折衷。

还对与树中的距离和根据关系式(19)的混淆损失函数的凸组合相等的损 失函数、更特别是针对根据关系式(20)、(21)、(22bis)的“SVM_cost_taxo_conf” 算法进行了分析。函数f(Δ(yi,k),ξi)根据关系式(6)来定义,并且损失函数 Δ(yi,k)通过实现计算损失函数Δ(yi,k)的方法的第二示例来计算,其中 Δ(yi,k)是根据关系式(18)和(19)、利用物种间混淆矩阵替换节点间混淆矩阵 来定义的。已经针对参数α的不同值(即值0、0.25、0.5、0.75和1)、关系式(18) 中的等于1的参数β和关系式(20)中的等于1,000的参数C实现了 “SVM_cost_taxo_conf”算法。该分析的结果在图8和9中示出,其中图8和图9 针对参数α的不同值分别示出各物种的准确性和分类成本。为了比较的目的, 这些附图还示出“SVM_cost_0/1”算法的各物种的准确性和分类成本。

如在附图中可以注意到,在参数α接近1、因而损失函数基本仅由层级表 示的树中的距离来定义的情况下,准确性降低并且错误的严重程度增加。同 样地,在参数α接近0、因而损失函数基本仅根据混淆矩阵来定义的情况下, 各物种的准确性降低并且错误的严重程度增加。

然而,对于范围[0.25;0.75]内、特别是范围[0.25;0.5]内的参数α的值, 可以观察到较大的准确性,其中各物种的最低准确性比SVM_cost_0/1算法的 各物种的最低准确性大60%。还可以观察到预测错误的严重程度大幅下降, 特别是分类成本大于6时的预测错误。此外,还可以观察到:对于接近0.5的α 值、特别是对于附图所示的值0.5,具有等于2的分类成本的错误数量与α值接 近0.25的相同成本的错误数量相比减少。

初步分析针对实现关系式(2)、(3)、(4)、(8)~(10)的“SVM_struct_taxo_conf” 算法示出相似影响,其中以在关系式(6)中所定义的函数作为函数 f(Δ(yi,k),ξi),并且以通过实现用于使用关系式(18)和(19)计算损失函数 Δ(yi,k)的方法的第二示例所计算出的函数作为损失函数Δ(yi,k)。

已经说明了应用于MALDI-TOF型质谱法的实施例。这些实施例还适用 于任何类型的谱测量法和光谱法、特别是振动谱测量法和自体荧光光谱法, 其中仅训练矢量的生成、特别是光谱的预处理有可能改变。

同样,已经说明了用于生成训练数据的光谱不具有结构的实施例。

现在,光谱是按性质“结构化的”,也就是说,这些光谱的分量、峰是不 可互换的。特别地,光谱包括例如根据针对质谱法的质荷比或根据针对振动 谱测量法的波长的内在测序,并且分子或有机化合物可能产生多个峰。

根据本发明,通过使用被定义为正的对称内核函数K(x,y)实现非线性的 SVM型算法,还将光谱的内在结构考虑在内,从而对一对光谱(x,y)的结构 相似性进行量化。然后利用所述内核函数K(x,y)来替换上述SVM算法中出现 的两个矢量之间的标量积。关于更多详情,可以参考例如Cambridge  University Press于2004年出版的由John Shawe-Taylor&Nello Cristianini的 “Kernel Methods for Pattern Analysis”的第11章。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号