首页> 中国专利> 代谢物MS/MS质谱计算机仿真方法

代谢物MS/MS质谱计算机仿真方法

摘要

本发明公开代谢物MS/MS质谱计算机仿真方法,本发明使用高效的Memetic算法对碎裂规则进行优化设计,并将分子质谱特异性作为寻优个体的适应度函数值,从而使所形成的仿真方法具有理论上全局最优的质谱区分能力,可有效提升代谢物鉴定的准确率。本发明还通过在优化过程中,加入稀疏适应度函数值用于引导寻优个体,可保证所形成的碎裂操作树具有最小的冗余度。从而在更少的分子操作步骤内,获得更具特异性的鉴定质谱,并有效避免现有算法中复杂分析过程所带来的鲁棒性问题。最后,本发明不依赖于特定输入的真实质谱与分子数据,所形成的仿真质谱数据具有一般性,可用于构造通用的代谢物鉴定数据库。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-15

    未缴年费专利权终止 IPC(主分类):G06F19/12 授权公告日:20171212 终止日期:20190526 申请日:20150526

    专利权的终止

  • 2017-12-12

    授权

    授权

  • 2015-09-09

    实质审查的生效 IPC(主分类):G06F19/12 申请日:20150526

    实质审查的生效

  • 2015-08-12

    公开

    公开

说明书

技术领域

本发明涉及计算机仿真领域,尤其涉及基于Memetic算法的代谢物MS/MS质谱计算机仿真方法。

背景技术

代谢物是生物体内完成代谢过程的小分子有机化合物总称,包含了丰富的生理状态信息。代谢组学基于对代谢物的整体系统性研究,可有效揭示生理现象背后的真实机理,并且可全面地展示生命体的动态状态。因此获得了越来越多的重视,被广泛应用于诸多科研与实用领域中。

现有代谢组学相关研究,依赖于对目标代谢物分子类型的鉴定,主要使用质谱法(Mass Spectrometry)进行分析。但在传统的一阶质谱(MS)中,每种分子只能形成与其分子量对应的单一谱线,而相同分子量可能对应多种化合式或同分异构体,因此无法确定其具体分子类型。为解决这一问题,近年来学术界又提出了高阶质谱(Multi-Stage MS,MSn)的概念,通过对代谢物进行多层碎裂(Fragmentation),并检测各碎片的分子量谱线,从而形成具特异性的MSn质谱(MSn Spectra,亦称为该分子的Barcode)。将其与已知质谱数据库中的谱线信息进行对比,即可有效判别分子类型。目前最常用的方法为基于二阶质谱(MS/MS或MS2)的鉴定方法。

但另一方面,此鉴定方法依赖于已有的分子质谱数据库。而高阶质谱分析价格高昂,耗时较长,且在不同参数下获得的谱线数据各不相同。若完全使用实际仪器采集,以构造较为完备的数据库,其所需成本极高,往往难以实现。为此出现了质谱的计算机仿真方法(In-Silico Fragmentation),通过分析分子在仪器内的碎裂情况,使用软件估计其所能形成的谱线。这一方法效率较高,成本极低,可在无需实验人员干预的情况下,快速获得大量分子的高阶质谱信息,从而有效构造鉴定数据库。且仿真获得的质谱特异性越高,所形成的数据库对不同代谢物的区分程度亦越好。

现有的计算机仿真方法主要针对MS/MS质谱数据,基于化学知识对分子碎裂情况进行分析,获得了一定的成果。但其预测精度仍较低,系统鲁棒性不佳,尚无法大规模应用于实际领域中。

总之,现有的代谢物MS/MS质谱计算机仿真方法,其缺点在于:

第一,仅依赖于分子碎裂的化学规律进行仿真。一方面,这些规律种类繁多,部分相互冲突。在特定条件下何种碎裂情况将会发生,目前并无有效的预测方法,只能给出大致的概率。另一方面,各碎裂情况可能多次、交互发生,其具体过程难以有效确定,所产生的结果也有着较大差异。在现有的仿真方法中,往往只能将所有结果全部列出。导致谱线过多,预测准度不高,所产生的质谱特异性较差,难以用于实际代谢物的鉴定。

第二,现有计算机仿真方法基于一组特定的分子碎裂化学规则,通过复杂的判断操作,获得最终质谱预测结果。其过程基本为人工设计,与实际情况往往有所偏差。且分析过程复杂,判断规则有所冗余、弹性较低。在实际应用中,只能针对特定的某一小部分代谢物进行分析。而在更大范围的分子类型中,其预测精度将显著下降,鲁棒性较差。

第三,一些仿真方法(如MetFrag等)依赖于实际输入的质谱数据。对于不同输入,其输出结果也会有所差异。从而所产生的MS/MS仿真质谱并不具有普遍性,更无法用于构造鉴定数据库。

因此,现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足,本发明的目的在于提供基于Memetic算法的代谢物MS/MS质谱计算机仿真方法,旨在解决现有代谢物计算机仿真方法预测准度不高、特异性差、鲁棒性较差以及不具有普遍性的问题。

本发明的技术方案如下:

一种基于Memetic算法的代谢物MS/MS质谱计算机仿真方法,其中,包括步骤:

S1、选择N种代谢物;

S2、获取代谢物的分子结构集合C={C1,C2,…,CN},获取代谢物的实际MS/MS质谱集合S={S1,S2,…,SN};

S3、构造L项分子碎裂操作的碎裂规则库为Ψ;

S4、设定分子碎裂最大层次数为P;

S5、构造进化种群ps:

其中,每个寻优个体xi∈ps,初始化为范围R=[0,2L-1]内均匀分布的D维随机矢量,其中:

>D=Σp=1PLp-1;>

S6、设定Memetic算法迭代总次数为G,初始化迭代计数器g=1;

S7、计算进化种群ps中每个寻优个体的总体适应度函数值;

S8、使用Memetic算法优化进化种群ps;

S9、更新迭代计数器g=g+1,若g<G,则返回步骤S7,否则优化结束,进入到步骤S10;

S10、在优化后的进化种群ps中,挑选最佳寻优个体,将其构造为最优碎裂操作树。

所述的基于Memetic算法的代谢物MS/MS质谱计算机仿真方法,其中,所述步骤S7具体包括:

S71、设输入个体为xi=[x1,x2,...,xD],其各维度上均为R范围内的实数值,将xi构造为碎裂操作树Tx

S72、初始化分子计数器n=0;

S73、获取分子结构集合C中的第n个分子结构Cn,构造碎片集合

S74、对Cn进行离子化,形成带电结构集合C’n={C’n,1,C’n,2,…,C’n,M},M≥1;

S75、初始化带电结构计数器m=0;

S76、获取带电结构集合C’n中的第m个分子结构C’n,m,将其加入碎片集合Fn

S77、由p=1层开始,使用碎裂操作树Tx对C’n,m进行逐层分析:若某一碎裂规则被应用于输入结构C’,且这一操作可被完成,则可形成碎片C’frag及剩余结构C’rest,其中C’rest进入p+1层的对应子节点l作进一步分析,将每次碎裂获得的C’frag及C’rest加入集合Fn,重复这一过程直至p=P;

S78、更新带电结构计数器m=m+1,若m>M则进入步骤S79,否则返回至步骤S76;

S79、计算Fn中所有结构的分子量,并按升序进行排列,形成计算机仿真的MS/MS质谱S’n

S80、更新分子计数器n=n+1,若n>N则进入步骤S81,否则返回至步骤S73;

S81、将计算机仿真的MS/MS质谱S’n构成预测质谱集合S’={S’1,S’2,…,S’N},并与实际质谱集合S进行对比,计算特异性适应度函数值为:

>fitP(xi)=-Σn=1N(sim(Sn,Sn)-1N-1Σi=1~N,insim(Si,Si));>

其中函数sim(·,·)返回两个质谱的相似度评分;

S82、计算稀疏适应度函数值为:

>fitS(xi)=Σn=1N||Sn||1>

其中||·||1为矢量的1范数;

S83、计算当前个体xi的总体适应度函数值为:

fit(xi)=fitP(xi)+λ×fitS(xi)

其中λ为拉格朗日乘数;

S84、若每个寻优个体的总体适应度函数值计算完毕,则结束,否则返回至步骤S71。

所述的基于Memetic算法的代谢物MS/MS质谱计算机仿真方法,其中,所述步骤S71具体包括:

S711、将xi中的值按层次p进行分离,每层包含Lp-1个数值;

S712、从p=2层开始,将其所包含的L p-1个数值,按每组L个值,依次均分为Lp-1/L=Lp-2个组,将其中第k∈Lp-2组作为p-1层中第k个数值的子节点,重复这一过程直至p=P,从而形成包含1-L-L2-L3…-LP-1个节点的树形结构;

S713、将xi中的所有数值转换为二进制形式,转化后的每个数值都包含L个比特;

S714、将转化后的树形结构与碎裂规则库Ψ进行对应:对于任意xd∈xi,若其二进制形式中的第l∈L个比特为1,亦即:

binary(xd)[l]=1;

其中函数binary(·)返回输入值的二进制比特序列,则表示Ψ中的第l种碎裂操作将会被应用于相应节点的输入分子结构,否则若该比特为0,则该项操作将不会被执行;

S715、在对应完成后,即可形成用于计算机仿真的MS/MS质谱的碎裂操作树Tx

有益效果:本发明可从碎裂规则库中自动挑选最为合适的操作。一方面,其选择不依赖于人工设定,对先验知识要求较低,避免了所设计方法并非最优化的问题。另一方面,可构建更为完善的碎裂规则库供仿真算法进行挑选,而无需担心选择复杂性问题。

本发明使用高效的Memetic算法对碎裂规则进行优化设计,并将分子质谱特异性作为寻优个体的适应度函数值,从而使所形成的仿真方法具有理论上全局最优的质谱区分能力,可有效提升代谢物鉴定的准确率。

本发明还通过在优化过程中,加入稀疏适应度函数值用于引导寻优个体,可保证所形成的碎裂操作树具有最小的冗余度。从而在更少的分子操作步骤内,获得更具特异性的鉴定质谱,并有效避免现有算法中复杂分析过程所带来的鲁棒性问题。

最后,本发明不依赖于特定输入的真实质谱与分子数据,所形成的仿真质谱数据具有一般性,可用于构造通用的代谢物鉴定数据库。

附图说明

图1为本发明的代谢物MS/MS质谱计算机仿真方法较佳实施例的流程图。

图2为本发明的方法中将寻优个体编码为树形结构的流程图。

图3为本发明的方法中根据碎裂规则库构造计算机仿真分子碎裂操作树的流程图。

图4为本发明的方法中根据分子碎片构造计算机仿真MS/MS质谱的流程图。

具体实施方式

本发明提供基于Memetic算法的代谢物MS/MS质谱计算机仿真方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在本发明中,首先使用基于Memetic算法的启发式优化技术,对分子碎裂规则及过程进行离线设计。其后使用优化后的MS/MS质谱计算机仿真方法,对更大范围的分子进行分析,构造仿真质谱数据库,用于代谢物的鉴定。本发明的方法其总体流程可参见图1,下面具体描述其过程。

本发明一种基于Memetic算法的代谢物MS/MS质谱计算机仿真方法,其包括步骤:

S1、选择N种代谢物;

即在优化前,选择N种具有代表性的代谢物的分子。

S2、获取代谢物的分子结构集合C={C1,C2,…,CN},获取代谢物的MS/MS质谱集合S={S1,S2,…,SN};

具体可通过PubChem、ChemSpider等数据库获取代谢物的分子结构集合C={C1,C2,…,CN},通过MassBank、mzCloud等质谱数据库获取目标代谢物的MS/MS质谱集合S={S1,S2,…,SN},作为系统的训练数据。

S3、构造L项分子碎裂操作的碎裂规则库为Ψ;

碎裂规则库的规则项包括但不限于:

线性结构断裂(Linear Bond Cleavage);

环形结构断裂(Ring System Cleavage);

初级/二级/三级碳阳离子损失(Primary/Secondary/Tertiary CarbocationLoss);

甲基损失(Methyl Loss);

氢损失(Hydrogen Loss);

中性分子损失(Neutral Molecule Loss)。

S4、设定分子碎裂最大层次数为P;

由于代谢物为生物小分子,一般设置P≤4。

S5、构造进化种群ps:

其中,每个寻优个体xi∈ps,初始化为范围R=[0,2L-1]内均匀分布的D维随机矢量,其中:

>D=Σp=1PLp-1;>

对于代谢物分子有P≤4,因此个体维度D一般为1E+3量级,属于Memetic算法可处理的优化问题。

S6、设定Memetic算法迭代总次数为G,初始化迭代计数器g=1;

S7、计算进化种群ps中每个寻优个体的总体适应度函数值;

S8、使用Memetic算法优化进化种群ps;

在计算所有寻优个体的总体适应度函数值后,使用Memetic算法优化进化种群ps。常用的Memetic算法方法为差分进化(Differential Evolution,DE)与(Davies,Swann,and Campey with Gram-SchmidtOrthogonalization,DSCG)优化方法的混合算法。

S9、更新迭代计数器g=g+1,若g<G,则返回步骤S7,否则优化结束,进入到步骤S10;

S10、在优化后的进化种群ps中,挑选最佳寻优个体,将其构造为最优碎裂操作树。

具体如下:挑选最佳寻优个体为:

>xbest=argminxipsfit(xi)>

将其构造为最优碎裂操作树Tbest,方法在后文中描述。则Tbest即为优化设计获得的MS/MS质谱计算机仿真方法的碎裂操作树,可用于代谢物鉴定质谱数据库的构造。

进一步,所述步骤S7具体包括:

S71、设输入个体为xi=[x1,x2,...,xD],其各维度上均为R范围内的实数值,将xi构造为碎裂操作树Tx

S72、初始化分子计数器n=0;

S73、获取分子结构集合C中的第n个分子结构Cn,构造碎片集合

S74、对Cn进行离子化,形成带电结构集合C’n={C’n,1,C’n,2,…,C’n,M},M≥1;

常用方法为加入氢阳离子([M+H]+)或钠阳离子([M+Na]+)等。从而形成带电结构集合C’n={C’n,1,C’n,2,…,C’n,M}。由于同一分子可能有多种离子化可能性,因此有M≥1;

S75、初始化带电结构计数器m=0;

S76、获取结集合C’n中的第m个分子结构C’n,m,将其加入碎片集合Fn

S77、由p=1层开始,使用碎裂操作树Tx对C’n,m进行逐层分析:若某一碎裂规则被应用于输入结构C’,且这一操作可被完成,则可形成碎片C’frag及剩余结构C’rest。其中C’rest进入p+1层的对应子节点l作进一步分析,将每次碎裂获得的C’frag及C’rest加入集合Fn,重复这一过程直至p=P;

S78、更新带电结构计数器m=m+1,若m>M则进入步骤S79,否则返回至步骤S76;

S79、如图4所示,计算Fn中所有结构的分子量,并按升序进行排列,形成计算机仿真的MS/MS质谱S’n

S80、更新分子计数器n=n+1,若n>N则进入步骤S81,否则返回至步骤S73;

S81、将计算机仿真的MS/MS质谱构成预测质谱集合S’={S’1,S’2,…,S’N},并与实际质谱集合S进行对比,计算特异性适应度函数值为:

>fitP(xi)=-Σn=1N(sim(Sn,Sn)-1N-1Σi=1~N,insim(Si,Si));>

其中函数sim(·,·)返回两个质谱的相似度评分;其值越大表示质谱越相似。在现有方法中一般使用pMatch算法进行处理。从而fitP取值越小,表示预测质谱与对应相同代谢物的真实质谱相似度越大,且与不同分子真实质谱的相似度越小。亦即预测质谱的特异性越高。

S82、计算稀疏适应度函数值为:

>fitS(xi)=Σn=1N||Sn||1>

其中||·||1为矢量的1范数;引入稀疏适应度函数可使碎裂操作树Tx趋于简化。

S83、计算当前个体xi的总体适应度函数值为:

fit(xi)=fitP(xi)+λ×fitS(xi)

其中λ为拉格朗日乘数;

S84、若每个寻优个体的适应度函数值计算完毕,则结束,否则返回至步骤S71。

进一步,所述步骤S71具体包括:

S711、如图2所示,将xi中的值按层次p进行分离,每层包含Lp-1个数值。例如p=1层包含L1-1=1个值x1,p=2层包含L2-1=L个值x2~x2+L-1,以此类推,亦即xi中的数值:

xa~xb∈xi,s.t.

>a=1+Σj=1p-1Lj-1b=Σj=1pLj-1>

将被划分至层次p∈P;

S712、从p=2层开始,将其所包含的L p-1个数值,按每组L个值,依次均分为Lp-1/L=Lp-2个组。将其中第k∈Lp-2组作为p-1层中第k个数值的子节点,重复这一过程直至p=P,从而形成包含1-L-L2-L3…-LP-1个节点的树形结构;

S713、如图3所示,将xi中的所有数值转换为二进制形式,由于其取值范围为R=[0,2L-1],故转化后的每个数值都包含L个比特;

S714、将转化后的树形结构与碎裂规则库Ψ进行对应:对于任意xd∈xi,若其二进制形式中的第l∈L个比特为1,亦即:

binary(xd)[l]=1;

其中函数binary(·)返回输入值的二进制比特序列。则表示Ψ中的第l种碎裂操作将会被应用于相应节点的输入分子结构。否则若该比特为0,则该项操作将不会被执行;

S715、在对应完成后,即可形成用于计算机仿真的MS/MS质谱的碎裂操作树Tx

本发明的有益效果如下:

第一,本发明可从碎裂规则库中自动挑选最为合适的操作。一方面,其选择不依赖于人工设定,对先验知识要求较低,避免了所设计方法并非最优化的问题。另一方面,可构建更为完善的碎裂规则库供仿真算法进行挑选,而无需担心选择复杂性问题。

第二,本发明使用高效的Memetic算法对碎裂规则进行优化设计,并将分子质谱特异性作为寻优个体的适应度函数值,从而所形成的仿真方法具有理论上全局最优的质谱区分能力,可有效提升代谢物鉴定的准确率。

第三,通过在优化过程中,加入稀疏适应度函数值用于引导寻优个体,可保证所形成的碎裂操作树具有最小的冗余度。从而在更少的分子操作步骤内,获得更具特异性的鉴定质谱,并有效避免现有算法中复杂分析过程所带来的鲁棒性问题。

最后,本发明不依赖于特定输入的真实质谱与分子数据,所形成的仿真质谱数据具有一般性,可用于构造通用的代谢物鉴定数据库。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号