首页> 中国专利> 一种筛选代谢组中差异代谢物的方法

一种筛选代谢组中差异代谢物的方法

摘要

本发明公开了一种筛选代谢组中差异代谢物的方法,先使用代谢组检测设备对对照组和实验组的样本中的代谢物进行检测,代谢物即离子,然后对检测到的信息进行提取,根据提取到的信息在数据处理软件中创建数据库,最后在数据库中对离子的信息进行分析处理,筛选出差异离子。其中,在数据库中筛选出分布频率大于或等于50%和80%的离子,然后在上述离子中筛选出差异离子,最后对差异离子进行打分和同位素筛查。本发明的筛选方法能快速、高效筛选出广覆盖且高质量的离子,另外本方法只需检测仪器自带的处理软件和常用的数据处理软件,学习成本低。

著录项

  • 公开/公告号CN113295759B

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 西南大学;

    申请/专利号CN202110618175.9

  • 申请日2021-05-31

  • 分类号G01N27/62(2021.01);G16B30/10(2019.01);G16B35/20(2019.01);G16B50/00(2019.01);

  • 代理机构北京元本知识产权代理事务所(普通合伙) 11308;

  • 代理人黎昌莉

  • 地址 400715 重庆市北碚区天生路2号

  • 入库时间 2022-09-06 00:40:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-05

    授权

    发明专利权授予

说明书

技术领域

本发明涉及代谢组差异代谢物筛选领域,尤其涉及一种筛选代谢组中差异代谢物的方法。

背景技术

代谢组学是继基因组学和蛋白质组学之后新发展起来的一种关于生物体内代谢组分检测分析的组学分析技术。自20世纪90年代中期,代谢组学开始迅速发展,并在生命学科领域得到了广泛应用。代谢组数据采集主要利用LC-MS(液相色谱质谱联用仪)、NMR(核磁共振)和GC-MS(气相色谱法质谱联用仪)分析检测平台。主要研究分子量在1000Da以下的小分子代谢物。代谢组检测会产生海量的数据,且这些数据具有高维、少样本和高噪音等复杂特征。

因此从庞杂的代谢组数据中挖掘差异性代谢产物,筛选出潜在的生物标志物一直是代谢组学研究的热点和难点。目前公用的代谢组学数据处理分析软件如MS-DIAL,MZmine和XCMS,都可以做差异代谢物的筛选,但是筛选出来的差异代谢物覆盖范围还不够广,对于一些低丰度的代谢物筛选不够灵敏,或者由于算法还不够完善导致部分离子没有被分析到。此外,一般情况下这些软件筛选出来的差异代谢物很多,但没有一个对离子峰型质量的评价标准,即筛选出来的很多离子峰型较差,没有对比差异分析意义。所以一般需要花费大量时间精力去对每个筛选出来的差异离子做人为评价,效率较低。

发明专利CN201911086340.X公开了一种肝癌阳离子标志物的筛选方法,包括以下步骤:第一步,将待测样本用4℃预冷的PBS清洗2次,加入超纯水匀浆,涡旋,加入提取液,涡旋,超声破碎2次,沉淀,离心,将上清冷冻干燥后得到粉状代谢混合物,将代谢混合物于-80℃下冻存,备用;第二步,先将第一步冻存的代谢混合物复溶,再利用LC-MS分离并采集质谱数据;第三步,确定每种代谢物质;第四步,筛选显著性差异代谢物质。本发明中建立的与肝癌诊断相关阳离子标志物的筛选方法,通过肝癌组织与肝硬化组织中相应分子含量的差异倍数(大于2或小于0.5)筛选出了4个具有良好差异性的代谢阳离子,为日后肝癌药物的研发提供新的靶点和思路,具有重要意义。但是该发明中在利用LC-MS分离采集数据和对差异性代谢物进行筛选时,效率仍然过低,筛选出的差异性代谢物覆盖不广,同时在进行筛选时需要花大量时间去学习相关软件操作,所耗费的时间成本较高。

发明内容

针对上述存在的技术问题,本发明提供一种筛选代谢组中差异代谢物的方法,以供筛选出高质量的代谢组差异代谢物。

本发明基于质谱数据进行分析,相关分析思路和原理同时也适用于其他质谱数据采集系统的数据分析,只需做部分参数优化。

主要步骤为(1)使用代谢组检测设备对对照组和实验组的样本中的代谢物进行检测,所述代谢物即为离子,(2)对检测到的信息进行提取,根据提取到的信息在数据处理软件中创建数据库,(3)在数据库中对离子的信息进行分析处理,筛选出差异离子。

其中,在数据库中筛选出分布频率大于或等于50%和80%的离子,然后在分布频率大于或等于80%的离子中筛选出差异离子,最后对差异离子进行打分和同位素筛查。

其中,数据处理软件可以选择包括Excel在内的常见且易于使用的数据处理软件。

进一步的,筛选代谢对照组和实验组样品中分布频率大于或等于50%和80%的离子、对差异离子进行打分和同位素离子筛查时,不同组的离子在其各组中单独分析,筛选代谢对照组和实验组样品之间的差异离子时需要进行组间正反两次比较。

进一步的,汇总所有离子信息,查找并筛选离子在样品中的分布情况,在筛选对照组和实验组扫描样品中分布频率大于或等于50%和80%的离子时,需要对经过分布查找后的离子进行编号以及两次连续去重复。

进一步的,根据离子强度和离子计数在分布频率大于或等于80%的离子中筛选出差异离子,然后对所述离子进行打分,包括对离子的离子强度、离子计数、离子相对强度三个参数进行打分,离子强度为平均离子强度,离子计数为离子在所有时段出现的频次,离子相对强度为单个时段离子平均强度与各时段重复离子平均强度比值。

进一步的,对差异离子打分过程还包括对分布频率在50%及以上的离子和样品的总离子进行打分并计算离子单独打分和离子平均得分。

进一步的,对离子强度进行打分,当0≦离子强度<5000时打分为1,当5000≦离子强度<10000时打分为2,当10000≦离子强度<50000时打分为5,当50000≦离子强度<100000时打分为6,当100000≦离子强度<500000时打分为8,当500000≦离子强度<1000000时打分为9,当1000000≦离子强度时打分为10。

进一步的,对离子计数进行打分,当1≦离子计数<3时打分为10,当3≦离子计数<5时打分为3,当5≦离子计数<10时打分为2,当10≦离子计数时打分为1。

进一步的,对离子相对强度进行打分,在离子计数≥5的情况下,当0≦相对离子强度<1时打分为0.5,当1≦相对离子强度<2时打分为1,当2≦相对离子强度<3时打分为2,当3≦相对离子强度<4时打分为3,当4≦相对离子强度<5时打分为5,当5≦相对离子强度时打分为10,在离子计数<5的情况下,当0≦相对离子强度<2时打分为1,当2≦相对离子强度<3时打分为2,当3≦相对离子强度<4时打分为3,当4≦相对离子强度<5时打分为5,当5≦相对离子强度时打分为10。

进一步的,基于离子强度得分、离子计数得分与相对强度得分得到离子最终得分和平均得分,根据离子的最终得分和平均得分判断离子峰形优良情况。

进一步的,采用同位素筛查法筛选高质量差异离子,所述筛选法为计算理论上的所找到的不同离子的同位素,然后对实际的同位素进行查找,并判断找到的离子是否为真正对应的所述同位素相同的离子。

本发明的筛选方法有益之处在于:相比于常规的代谢组学数据处理分析软件,本发明的筛选方法能快速、高效筛选出广覆盖且高质量的离子,得到更多的离子且离子峰形更加特异,在计算离子强度差异方面更加准确,另外本方法只需检测仪器自带的处理软件和常见数据处理软件,学习成本很低。

附图说明

图1为本发明中的差异代谢物筛选流程图。

图2为在软件上设置代谢组质谱数据提取参数的界面图。

图3为本发明中的方法与MS-DIAL差异比对分析图。

图4为根据本发明中的打分体系得出的RT=6.94min,m/z=291.07762,score=100的离子峰形图

图5为根据本发明中的打分体系得出的RT=7.51min,m/z=589.21049,score=50的离子峰形图。

图6为根据本发明中的打分体系得出的RT=8.94min,m/z=215.09219,score=20的离子峰形图。

图7为根据本发明中的打分体系得出的RT=4.52min,m/z=178.97697,score=10的离子峰形图。

图8为根据本发明中的打分体系得出的RT=6.64min,m/z=129.9741,score=4的离子峰形图。

图9为本发明中的方法在A组中筛选出的RT=6.3min,m/z=363.073,score=60的离子峰形图。

图10为本发明中的方法在A组中筛选出的RT=7.82min,m/z=577.632,score=32的离子峰形图。

图11为本发明中的方法在B组中筛选出的RT=1.61min,m/z=612.148,score=90的离子峰形图。

图12为本发明中的方法在B组中筛选出的RT=8.9min,m/z=587.108,score=80的离子峰形图。

具体实施方式

下面结合附图,对本发明作详细的说明。

所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。

本方法基于Q-Exactive的质谱数据进行分析,同时也适用于其他质谱数据采集系统的数据分析,只需做部分参数优化。

如图1所示,差异代谢物的筛选流程为总离子的提取,包括离子打分、筛选差异离子和离子去同位素。

筛选差异离子的步骤为先进行离子汇总和频率统计,再进行离子去重复,再筛选出50%和80%的离子,在对离子强度进行比对,然后对组间差异离子进行去重复和筛选汇总,最后计算P值。

离子打分包括对50%离子打分和计算离子平均得分,对50%离子打分为离子唯一化处理和得到离子计数,计算离子平均得分为得到离子相对强度。然后对离子计数、离子相对强度和离子强度进行单独打分,从而得到离子得分。

离子去同位素的而步骤为先计算理论同位素M+1、M+2、M+3,然后计算M+1、M+2、M+3的离子强度比,最后根据条件判断筛选出同位素离子。

将以上信息汇总,即完成差异代谢物的筛选。

实施例1

筛选对照组(A)和实验组(B)中的差异离子:对照组(A)和实验组(B)各选取至少6份生物学重复材料,我们这里以10份为例。先进行质谱峰提取,然后筛选在所有A组或B组样品中出现概率大于或等于50%和80%的离子,最后筛选出A组与B组样品之间的差异离子。

步骤1,质谱峰提取,如图2所示,利用Xcalibur对样品进行质谱峰提取,每分钟单独提取,m/z范围为100-1200,mass tolerance设为5ppm,每分钟区间内提取离子强度在所有A组或B组材料中大于1000的离子。然后进行离子分部频率初筛,先以A组为例,如表1所示,将提取的质谱数据存放在表“A组筛选50%和80%离子”中的子表“离子分布频率初筛”的Q列以后,在Q列补充对应的RT时间段,在每个样品m/z前一列填充RT&m/z信息,每分钟对应的质谱数据从上至下存放。

以下表1即为所述子表“离子分布频率初筛”中与以上描述相对应的部分内容。

表1

步骤2,筛选在所有A组或B组样品中出现概率大于或等于50%和80%的离子,需要先离子分布频率初筛然后筛选出50%和80%及以上的离子。

离子分布频率初筛步骤为:先以A组为例,对A组所有样品筛选出来的所有离子进行汇总,存放在表“离子分布频率初筛”的A-D列,A列补充对应样品的信息。在第2行的F-O列输入样品名,以C列RT&m/z为参考,利用数组公式“=VLOOKUP(1,IF({1,0},($R$9:$R$35434>(C3-0.002))*($R$9:$R$35434<(C3+0.002)),$T$9:$T$35434),2,0)”,其中$R$9:$R$35434和$T$9:$T$35434代表样品P237的RT&m/z和离子强度数据集,C3代表参考离子的RT&m/z,0.002代表区分不同离子的误差值,执行此数组公式需要同时按shift+ctrl+enter,查找出每个样品含有对应参考离子的离子强度:F-O列。能够查找出离子强度的代表对应样品中就有对应的参考离子。为了方便数据分析,可以将第一查找行保留公式,这一行以下的数据可以去格式粘贴。

筛选出50%和80%及以上的离子步骤为:(1)如表2所示,将子表“离子分布频率初筛”中A-O列数据去格式粘贴到子表“50%及以上分布频率离子-1”和子表“80%及以上分布频率离子-1”。在以上两个子表的D列后面插入17列,在E和F列添加“平均离子强度”和“计数”,将W-AF列离子强度值为“#N/A”替换为空。在E列计算W-AF列所有样品对应离子的平均离子强度,在F列计数对应离子在W-AF列所用样品对应的出现次数,对所有数据按照F列计数降序排序筛选出分布频率在50%及以上和80%及以上的离子。

以下表2即为子表“50%及以上分布频率离子-1”中与以上描述相对应的部分内容。

表2

(2)将C列复制到H列,并在I列添加顺序编号,然后将A-D列数据复制到K-N列,在O列利用公式“=VLOOKUP(1,IF({1,0},($H$3:$H$166138>(M3-0.002))*($H$3:$H$166138<(M3+0.002)),$I$3:$I$166138),2,0)”对M列参考离子查找H-I列数据集中对应的离子编号。

(3)将K-O列数据复制去格式粘贴到Q-U列,然后对Q-AF列数据以U列查找的编号为准进行离子去重复,这样就得到了初步去重复后的50%及以上分布频率的离子和80%及以上分布频率的离子了。但是这部分得到的离子中还有极少数离子是重复的,故还需继续进一步去重复。

(4)如表3所示,继续去重复,将子表“50%及以上分布频率离子-1”和子表“80%及以上分布频率离子-1”中的Q-AF列复制粘贴到子表“50%及以上分布频率离子-2”和子表“80%及以上分布频率离子-2”中,然后在E列后面插入12列。与上一步类似,将A-D列复制到G-J列,在K列利用公式“=VLOOKUP(1,IF({1,0},($C$3:$C$20921>(I3-0.002))*($C$3:$C$20921<(I3+0.002)),$E$3:$E$20921),2,0)”对I列参考离子查找C列数据集中对应在E列的离子编号。

以下表3即为子表“50%及以上分布频率离子-2”中与以上描述相对应的部分内容。

表3

(5)将G-K列复制去格式粘贴到M-Q列,然后对M-AB列数据以Q列查找的编号为准进行离子去重复,这样就得到了去重复后的50%及以上分布频率的离子和80%及以上分布频率的离子了。

(6)如表4所示,将以上对应子表中M-AB列数据复制粘贴到子表“50%及以上分布频率离子-3”和子表“80%及以上分布频率离子-3”中,在E列后面插入1列,然后在E和F列分别计算每个离子对应的平均离子强度和离子计数。

以下表4即为子表“50%及以上分布频率离子-3”中与以上描述相对应的部分内容。

表4

以相同的方法筛选出B组样品中各时间段的分布频率在50%和80%及以上的离子信息,并将相关数据存放在表“B组筛选50%和80%离子”中。

步骤3,筛选出A组与B组样品之间的差异离子,需先将A组与B组间离子强度比对,然后将A组与B组间差异离子去重复和筛选汇总。

A组与B组间离子强度比对,步骤为:(1)如表5所述,将A组筛选出来的分布频率在80%及以上的离子与B组总离子数据库进行比对。建立新表“A组80%离子与B组总离子比对分析”。将以上“筛选出50%和80%以上的离子”步骤中表“A组筛选50%和80%离子”中子表“80%及以上分布频率离子-3”的A-F列数据复制粘贴到新表A-F列。同时将表“B组50%和80%离子”中子表“离子分布频率查找”中的A-Q列数据复制到新表W列以后,并在Z列即m/z列后面插入平均离子强度列(AA列)和计数列(AB列)。然后将AD-AM列中值为#N/A替换为空,计算B组平均离子强度和离子计数,然后将W-AM列数据即B组数据按照AB列计数进行降序排列。

以下表5即为表“A组80%离子与B组总离子比对分析”中与以上描述相对应的部分内容。

表5

(2)然后在G-J列分别添加“B组RT&m/z”,“B组平均离子强度”,“B组离子计数”和“A组/B组”。在G列利用公式“=VLOOKUP(1,IF({1,0},($Y$3:$Y$215882>(C3-0.003))*($Y$3:$Y$215882<(C3+0.003)),$Y$3:$Y$215882),2,0)”查找C列A组中RT&m/z在B组在Y列中对应的RT&m/z。在H列利用公式“=VLOOKUP(G3,Y:AB,3,0)”查找AB列B组中对应离子的平均离子强度。在I列利用公式“=VLOOKUP(G3,Y:AC,4,0)”查找AC列B组中对应离子的离子计数。

(3)然后以G列数据为参考,将AD-AM列的B组离子强度在L-U列利用VLOOPUP公式查找回来,这样就完成了A组筛选出来的分布频率在80%及以上的离子与B组总离子数据库进行比对。

以相同的方法,将B组筛选出来的分布频率在80%及以上的离子与A组总离子数据库进行比对。相应数据存放在新表“B组80离子与A组总离子比对分析”中。

A组与B组间差异离子去重复和筛选汇总,步骤为:(1)如表6所示,将上一步中表“A组80%离子与B组总离子比对分析”和表“B组80离子与A组总离子比对分析”中的A-J列数据分别复制粘贴到新表“A组和B组差异离子筛选汇总”中的A-J列和M-V列。在K列和W列分别利用公式“=VLOOKUP(1,IF({1,0},($O$4:$O$12395>(C4-0.003))*($O$4:$O$12395<(C4+0.003)),$P$4:$P$12395),2,0)”和“=VLOOKUP(1,IF({1,0},($C$4:$C$13378>(O4-0.003))*($C$4:$C$13378<(O4+0.003)),$D$4:$D$13378),2,0)”查找A组离子对应在B组中的m/z和B组离子对应在A组中的m/z。查找有值的部分为A组和B组重复部分。还有一些离子对应B组或A组计数为大于等于8,但是查找值为#N/A,这部分离子代表在B组或A组中统计频率分布次数的时候由于误差,统计出来分布频率低于80%了,被过滤掉了(此部分离子极少),这部分离子应当补充为A和B组的共同的分布频率在80%及以上的离子。

以下表6即为表“A组和B组差异离子筛选汇总”中与以上描述相对应的部分内容。

表6

(2)将A-K列和M-W列数据分别复制到子表“A组和B组差异离子(A组比B组)”和“A组和B组差异离子(B组比A组)”中,如表7,在C列RT&m/z后插入一列D列“RT&No&m/z”,通过依据L列和J列数据对整个数据集进行交替排序,筛选出A和B组共同分布频率在80%及以上的离子,包括L列有值的离子,以及L列没有值但J列B组离子计数大于等于8的离子,以及其他分布频率的离子。K列数据为A组和B组的平均离子强度的比值。在N-S列分别添加“单独的分”,“平均得分”,“P值”,“M+1”,“M+2”和“M+3”列,在子表“A组和B组差异离子(A组比B组)”中的U-AD列和AF-AO列添加对应离子在A组和B组样品中的离子强度,在子表“A组和B组差异离子(B组比A组)”中的U-AD列和AF-AO列添加对应离子在B组和A组样品中的离子强度。这部分的数据在完成离子打分和同位素查找后再一起查找添加。

以下表7即为子表“A组和B组差异离子(B组比A组)”中与以上描述相对应的部分内容。

表7

实施例2

离子评价打分,A组和B组的离子单独打分,先以A组样品为例,方法步骤如下:1.对50%及以上的离子单独打分2.计算离子平均得分3.离子打分汇总。

1.对50%及以上的离子单独打分又分以下几个步骤实现:(1)汇总分布频率在50%及以上离子(2)离子m/z的唯一化处理,离子计数(3)计算单个时段离子平均离子强度与本离子各时段重复离子平均强度的比值(4)对离子进行打分。

步骤(1),汇总分布频率在50%及以上离子,将以上步骤中表“A组筛选50%和80%离子”中子表“50%及以上分布频率离子-3”中的A-E列数据复制粘贴到新表“A组离子打分”中子表“A组50%离子单独打分”的A-E列。

步骤(2),离子m/z的唯一化处理,离子计数,如表8所示,在F列利用公式“=VLOOKUP(1,IF({1,0},($D$2:$D$20920>(D2-0.002))*($D$2:$D$20920<(D2+0.002)),$D$2:$D$20920),2,0)”对D列离子m/z在其D列本身进行查找,完成离子m/z唯一化处理(每个被查找的离子都会只返回最上面的最相近离子的m/z)。然后在G列对F列查找到的m/z进行计数。

以下表8即为子表“A组50%离子单独打分”中与以上描述相对应的部分内容。

表8

步骤(3),计算单个时段离子平均离子强度与本离子各时段重复离子平均强度的比值,在H列利用公式“=AVERAGEIF(F:F,F2,E:E)”计算各时段重复离子强度之和,然后在I列利用公式“=E2/H2”计算单个时段离子平均离子强度与本离子各时段重复离子平均强度的比值。

步骤(4),对离子进行打分,分为离子强度打分、离子计数打分、单个时段离子平均强度与各时段重复离子平均强度比值打分以及计算离子总得分。

离子强度打分,在J列利用公式“=LOOKUP(E2,{0,5000,10000,50000,100000,500000,1000000},{1,2,5,6,8,9,10})”对E列离子强度进行打分,公式代表的意思是当0≦离子强度<5000时打分为1,当5000≦离子强度<10000时打分为2,当10000≦离子强度<50000时打分为5,当50000≦离子强度<100000时打分为6,当100000≦离子强度<500000时打分为8,当500000≦离子强度<1000000时打分为9,当1000000≦离子强度时打分为10。

离子计数打分,在K列利用公式“=LOOKUP(G2,{1,3,5,10},{10,3,2,1})”对G列离子计数进行打分,公式代表的意思是当1≦离子计数<3时打分为10,当3≦离子计数<5时打分为3,当5≦离子计数<10时打分为2,当10≦离子计数时打分为1。本离子计数打分法是基于18个时段打分,即扫描时间是19分钟(没算第一分钟)。其他跑样时长可以根据本方法按比例适当扩大离子打分离子计数参数的上限(这里为10),前面3个(1,3,5)保持不变。

单个时段离子平均强度与各时段重复离子平均强度比值打分,在L列利用公式“=IF(G2>=5,LOOKUP(I2,{0,1,2,3,4,5},{0.5,1,2,3,5,10}),LOOKUP(I2,{0,2,3,4,5},{1,2,3,5,10}))”对I列数据进行判断条件打分,公式代表的意思是当G列离子计数≥5时,执行公式“LOOKUP(R2,{0,1,2,3,4,5},{0.5,1,2,3,5,10})”,即在离子计数≥5的情况下,当0≦相对离子强度<1时打分为0.5,当1≦相对离子强度<2时打分为1,当2≦相对离子强度<3时打分为2,当3≦相对离子强度<4时打分为3,当4≦相对离子强度<5时打分为5,当5≦相对离子强度时打分为10。当G列离子计数小于5时,执行公式“LOOKUP(R2,{0,2,3,4,5},{1,2,3,5,10})”,即在离子计数<5的情况下,当0≦相对离子强度<2时打分为1,当2≦相对离子强度<3时打分为2,当3≦相对离子强度<4时打分为3,当4≦相对离子强度<5时打分为5,当5≦相对离子强度时打分为10。

在M列计算离子总得分,离子总得分=离子强度打分(J列)×离子计数打分(K列)×相对离子强度打分(L列)。

2.计算离子平均得分,为了更加全面的评价离子峰型好坏,尤其对以上打分在20分左右的离子判断更加准确(因为打分在20左右的离子可能只代表了峰型较好的离子,而缺少了对峰型较差离子的反映),需要进一步对所有离子进行平均得分计算,从而更加综合的评价离子峰型优良情况。平均打分步骤如下:

(1)将表“A组筛选50%和80%离子”中子表“离子分布频率初筛”的A-D列数据复制粘贴到表“A组离子打分”中子表“A组总离子平均得分”中,然后在C列后面插入D列No&m/z列(No为样品编号),这时务必将A列样品名称用对应的数字表示且样品编号必须大于2,然后在F列根据表“A组筛选50%和80%离子”中子表“离子分布频率初筛”中的信息将对应的离子强度信息补充完整,即根据子表“离子分布频率初筛”中Q-BD列原始质谱数据信息进行补充。

(2)与步骤“对50%及以上的离子单独打分”中的处理方式类似对每个离子进行打分操作。即在H列利用公式“=VLOOKUP(1,IF({1,0},($D$3:$D$354262>(D3-0.002))*($D$3:$D$354262<(D3+0.002)),$D$3:$D$354262),2,0)”对单个样品内所有时间段的离子进行唯一化;在I列利用公式“=COUNTIF(H:H,H3)”对H列唯一化后的离子进行计数;在J列利用公式“=AVERAGEIF(H:H,H3,F:F)”计算每个样品不同时间段重复离子的平均离子强度;在K列利用公式“=F3/J3”计算单个离子平均强度与重复离子平均强度的比值。然后在L列利用公式“=LOOKUP(F3,{0,5000,10000,50000,100000,500000,1000000},{1,2,5,6,8,9,10})”对F列离子强度进行打分;在M里利用公式“=LOOKUP(I3,{1,3,5,10},{10,3,2,1})”对I列离子计数进行打分;在N列利用公式“=IF(I3>=5,LOOKUP(K3,{0,1,2,3,4,5},{0.5,1,2,3,5,10}),LOOKUP(K3,{0,2,3,4,5},{1,2,3,5,10}))”对K列相对离子强度依据I列离子计数进行条件判断打分,最后在O列利用公式“=L3*M3*N3”计算每个离子的总得分。

(3)计算每个离子的平均得分。在Q列利用公式“=VLOOKUP(1,IF({1,0},($C$3:$C$354262>(C3-0.002))*($C$3:$C$354262<(C3+0.002)),$C$3:$C$354262),2,0)”对C列RT&m/z进行唯一化操作;在R列利用公式“=COUNTIF(Q:Q,Q3)”对Q列离子数据进行计数;在S列利用公式“=SUMIF(Q:Q,Q3,O:O)”计算Q列离子在O列中的得分的总和;在T列利用公式“=S3/R3”计算每个离子的平均得分,在U列还可以利用公式“=O3-T3”计算每个离子单独得分与平均得分的分差。

离子打分汇总,如表9所示,将表“A组离子打分”中子表“A组50%离子单独打分”中的A-D列和M列复制粘贴到子表“A组离子打分汇总”中的A-E列,然后在F列添加离子平均得分,利用VLOOKUP函数查找每个离子对应在子表“A组总离子平均得分”中的离子平均得分。

以下表9即为子表“A组离子打分汇总”中与以上描述相对应的部分内容。

表9

同理,利用相同方法对B组样品筛选出来的频率50%及以上的所有离子进行评价打分评价以及计算所有离子的平均得分,并将相关数据存放在表“B组离子打分”中。

实施例3

因为以上步骤筛选出来的离子中还包含了同位素离子,故需要去除M+1,M+2和M+3同位素离子,一般去到M+3就可以了,因为我们研究的是m/z为100-1500的小分子,极少有M+4离子,最后保留M离子,这样有利于离子定性和数据分析。

去除同位素需要对同位素进行筛选,筛选同位素需以下几个步骤:

(1)如表10所示,直接将表“A组离子打分”中子表“A组总离子平均得分”的A-F列复制粘贴到新表“A组同位素离子查找”的A-F列,并将D列的No&m/z替换为RT&No&m/z。

以下表10即为表“A组同位素离子查找”中与以上描述相对应的部分内容。

表10

(2)在H-J列依据D列数据计算理论M+1,M+2和M+2同位素离子对应的RT&No&(M+1),RT&No&(M+2)和RT&No&(M+3),即H列数据为D列数据加1.0035,从而得到理论的M+1离子的RT&No&(M+1);I列数据为D列数据加2.0067,从而得到理论的M+2离子的RT&No&(M+2);J列数据为D列数据加3.01005从而得到理论的M+3离子的RT&No&(M+3)。(3)在L列利用公式“=VLOOKUP(1,IF({1,0},($D$3:$D$354262>(H3-0.002))*($D$3:$D$354262<(H3+0.002)),$D$3:$D$354262),2,0)”以H列为理论值为参考查找每个离子的M+1离子在D列中的实际的RT&No&(M+1)值;同理,在M列利用公式“=VLOO KUP(1,IF({1,0},($D$3:$D$354262>(I3-0.002))*($D$3:$D$354262<(I3+0.002)),$D$3:$D$354262),2,0)”以I列为理论值为参考查找每个离子的M+2离子在D列中的实际的RT&No&(M+2)值;在N列利用公式“=VL OOKUP(1,IF({1,0},($D$3:$D$354262>(J3-0.002))*($D$3:$D$354262<(J3+0.002)),$D$3:$D$354262),2,0)”以J列为理论值为参考查找每个离子的M+3离子在D列中的实际的RT&No&(M+3)值。

(4)在P-R列用VLOOKUP函数分别查找L-N列中实际找到的RT&No&(M+1),RT&No&(M+2)和RT&No&(M+3)同位素离子对应在D-F列中的离子强度。

(5)在T-V列计算M/M+1,M+1/M+2和M+2/M+3的离子强度的比值。在X列利用公式“=IF(OR(AND(AND(100<=E3,E3<=1000),AND(1<=T3,T3<=50)),AND(E3>=1000,AND(0.5<=T3,T3<=5))),1,0)”判断找到的M+1离子是否是真正的M+1离子,如果是标记为1。在Y列利用公式“=IF(AND(AND(U3>1,X3=1),OR(AND(AND(100<=E3,E3<=1000),AND(1<=U3,U3<=100)),AND(E3>=1000,AND(0.5<=U3,U3<=5)))),1,0)”判断找到的M+2离子是否是真正的M+2离子,如果是标记为1。在Z列利用公式“=IF(AND(AND(V3>1,Y3=1),OR(AND(AND(100<=E3,E3<=1000),AND(1<=V3,V3<=100)),AND(E3>=1000,AND(0.5<=V3,V3<=5)))),1,0)”判断找到的M+3离子是否是真正的M+3离子,如果是标记为1。

通过以上步骤就可以筛选出同位素离子,同理对B组材料数据进行相同的操作筛选出对应的同位素离子,并将相关数据存放在新表“B组同位素离子查找”中。可以利用以上表中L,M和N列的RT&No&(M+1),RT&No&(M+2)和RT&No&(M+3)做为索引对步骤1筛选出来的差异离子集分别查找同位素离子在X、Y和Z中的判断值,从而进行去除同位素离子操作。

实施例4

补全步骤1中的A组和B组差异离子筛选数据集的信息,具体采用以下几个步骤:

(1)打开表“A组和B组差异离子筛选汇总”中子表“A组和B组差异离子(A组比B组)”,以C列RT&m/z数据为查找参考值,在N列和O列利用VLOOKUP函数分别查找在表“A组离子打分”中子表“A组离子打分汇总”中的离子单独得分和平均得分。(2)P值计算,在U-AD列和AF-AO查找分别补充A组和B组每个离子对应的离子强度信息,即以C列RT&m/z数据为查找参考值,在U-AD列利用VLOO KUP函数分别查找在表“A组筛选50%和80%离子”中子表“80及以上分布频率离子-3”中对应A组离子的离子强度信息。然后在AF-AO列利用VLOOKUP函数分别查找在表“A组80%离子与B组总离子比对分析”中B组对应离子的离子强度信息,最后在P列利用公式“=T.TEST(U4:AD4,AF4:AO4,2,2)”计算每个离子的P值。

(3)同位素离子判断,在Q,R和S列利用VLOOKUP函数以D列RT&No&m/z数据为参考,查找在表“A组同位素离子查找”中对应在L,M和N列RT&No&(M+1),RT&No&(M+2)和RT&No&(M+3)数据对应在X、Y和Z中的判断值,从而判断对应离子是否为对应的M+1,M+2和M+3同位素离子。

同理对子表“A组和B组差异离子(B组比A组)”进行类似的操作,到相应的表中去查找对应离子信息,从而补全相关的信息。到此就完成了A组和B组间差异离子的筛选工作。

实施例5

将本发明中筛选方法得到的离子与代谢组常用软件MS-DIAL比较。用MS-DIAL软件对同一组数据运用相同参数进行分析。

MS-DIAL核心参数:MS1误差0.002Da(约为11ppm),挑选在40%的总样本中存在的离子。本发明中方法核心参数:MS1误差0.002Da,挑选在A组或B组80%的样品中存在的离子。

本发明中的筛选方法相对于MS-DIAL软件分析,具有以下几个明显的特点:

(1)本发明中的筛选方法筛选到的离子比MS-DIAL更多。

比对方法,先对各方法结果进行去重复。利用RT&MZ,去重复误差为0.003Da。将去重复后的结果进行方法间的离子比对,把两种结果中RT&MZ相同的离子认定为同一离子,误差为0.006Da。

如图3中最上方的图所示,MS-DIAL共鉴定到2564个离子(当把m/z的误差扩大到0.01,可鉴定出2722个离子),新方法共鉴定到13266个离子。有2455个离子被两种同时检测到。

如图3中中间的图所示,对共同鉴定到的离子进行强度差异分析,有637个离子在A,B组之间离子强度差异倍数大于2;有1455个离子在A,B组之间离子强度差异倍数小于2,有171个离子只在MS-DIAL中被鉴定为差异离子,有192个离子只在新方法中被鉴定为差异离子。

如图3中最下方的图所示,对离子强度差异倍数大于2的离子进行分析,有205个离子只在MS-DIAL中被鉴定为差异离子,有4095个离子只在新方法中被鉴定为差异离子。

本发明中方法未能检测到的离子主要是由于离子在样品中的占比不同导致,筛选离子的标准(在A组或B组样本中占比超过80%的离子)比MS-DIAL(在A组和B组的总样本中占比超过40%的离子)更高。MS-DIAL挑选在40%的总样本中存在的离子,会挑选到在A和B各组中未达到80%,但在整体样本中超过40%的离子。如表11,这两个离子属于109个新方法未能鉴定离子。在A组中有三个样品中不能鉴定到,即低于80%的筛选标准,因而被本发明中的方法排除。在B组中有两个样品中能被检测到,也被本法中的方法排除。但其在总体样品中的占比大于40%,即被MS-DIAL鉴定到。总的说来,本发明中的方法具有更严格的筛选标准。

表11

此外在同位素离子去除方面,MS-DIAL有没有去除完全的情况。

(2)本发明中的方法在计算离子强度差异方面更加准确。

表12是两种方法共同筛选到的离子,但在统计其差异倍数时,两种方法的统计结果有较大差异,这部分离子只占筛选出的离子总体中的少部分。

表12

如表12,比对发现ID为755(RT&m/z=14237.0744)的离子在A和B组间没有太大差异,通过计算真实差异是1.02倍,差异变化倍数并没有达到MS-DIA所计算的6倍以上,故有部分MS-DIAL筛选的差异离子在计算其差异倍数时并不是特别准确,相反本发明中的新方法更能反应离子的真实差异变化。

(3)本发明中的方法打分体系确保筛选出的离子峰型更加特异。

本发明开发了针对筛选出的离子峰型的打分方法,可以对离子的峰型特异性进行评价,从而筛选出高质量的差异离子,该特点是其他代谢组数据处理软件所没有的。

在共同鉴定到的2455个离子中存在部分峰型较差的离子。本方法打分体系能准确区分开这些离子。

在RT=6.94min,m/z=291.07762,score=100时如图4所示。

在RT=7.51min,m/z=589.21049,score=50时如图5所示。

在RT=8.94min,m/z=215.09219,score=20时如图6所示。

或RT=4.52min,m/z=178.97697,score=10时如图7所示。

MS-DIAL筛选出的峰型很差的离子,由于没有相应的峰型评价体系,所以也在筛选出的离子集合中,如以下离子:

在RT=6.64min,m/z=129.9741,score=4如图8所示。

(4)新方法筛选出了大量MS-DAIL没有筛选到的离子,主要在A组中存在的离子参数为:如图9、图10所示,RT=6.3min,m/z=363.073,score=60和RT=7.82min,m/z=577.632,score=32。主要在B组中存在的离子参数为:如图11、图12所示,RT=1.61min,m/z=612.148,score=90和RT=8.9min,m/z=587.108,score=80。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号