首页> 中国专利> 预测流体类别样本中特别是生物流体样本中NMR自旋系统的化学位移值的方法

预测流体类别样本中特别是生物流体样本中NMR自旋系统的化学位移值的方法

摘要

本发明涉及使用核磁共振(NMR)光谱法预测属于流体类别样本中包含的化合物的NMR自旋系统的化学位移值的方法。本发明允许将流体类别(特别是生物流体)样本的NMR谱中的峰更加可靠和更容易地(特别是更快速地)归属于样本中包含的化合物的NMR自旋系统。

著录项

  • 公开/公告号CN107505346A

    专利类型发明专利

  • 公开/公告日2017-12-22

    原文格式PDF

  • 申请/专利权人 布鲁克碧奥斯平有限公司;

    申请/专利号CN201710446577.9

  • 发明设计人 P·塔吉斯;C·鲁茨纳特;

    申请日2017-06-14

  • 分类号

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人唐宏

  • 地址 德国莱茵施泰滕

  • 入库时间 2023-06-19 04:05:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-22

    授权

    授权

  • 2018-01-19

    实质审查的生效 IPC(主分类):G01N24/08 申请日:20170614

    实质审查的生效

  • 2017-12-22

    公开

    公开

说明书

本发明涉及使用核磁共振(NMR)光谱法预测属于流体类别样本中包含的化合物的NMR自旋系统的化学位移值的方法。

NMR谱是调查样本的定性和定量组成的有力工具。在现代生物化学和医学中,生物流体如尿液的组成对科学家和医生来说是非常重要的。类似地,例如在化学和食品技术方面,样本的组成是非常重要的,特别是对于品质控制。

通常,使用1维NMR实验来研究生物流体的样本。在从样本记录的NMR谱中,样本中包含的化合物的NMR自旋系统产生NMR信号(峰)。通过属于特定化合物的NMR自旋系统的一个或多个峰的形状和大小,可以确定该化合物的浓度。

然而,在典型的生物流体如尿液中,含有具有相关NMR自旋系统的许多化合物,因此其相应的峰重叠。通常对于其它流体类别的样本,这同样适用。此外,取决于样本的特性,例如其pH、温度或所含物质(或代谢物)的浓度,相同NMR自旋系统的峰位置可能随样本而异。这使得难以将NMR谱中发现的峰分别归属于正确的NMR自旋系统或化合物。因此,峰至NMR自旋系统的归属通常是经验丰富的专家的工作,并且需要大量时间,并且即使是有经验的专家也可能进行错误的分配,从而导致错误的定性或定量组成信息。

在已知为加标(spiking)的程序中,在记录了样本的NMR谱之后,将感兴趣的化合物富集在样本中,并记录另一种NMR谱。通过比较原始样本和富集样本的NMR谱,特别是特定峰强度的增加,可以实现更可靠的峰归属。但是,这个程序非常精细,并且改变原始样本的组成。

还有计算机辅助的峰鉴定工具,但这些工具通常需要较高的计算能力或较长的计算时间,并且可能无法避免偶然出现的峰分配错误,从而导致化学分析中出现错误的“阳性”结果。更具体地说,BATMAN(对于BQuant同样适用)使用Monte Carlo Markov Chain算法来计算用户预定义的ppm区域内每个NMR自旋系统的贝叶斯模型,这需要相当大的计算量。此外,BATMAN(和BQuant)不是设计为完全自动化的分配工具,并且它们每次都需要内置数据库来分配和定量代谢物。对于BATMAN,当仅拟合两种代谢物时,从一个光谱运行一个小的ppm范围花费大约半分钟,并且对于约200个光谱的典型数据集,拟合约25个代谢物可能需要适用现有技术电脑设备进行几天的时间。

在US 7,191,069 B2中,提出在诸如特定pH的测量条件下从样本获得NMR测试光谱,并且使用该测量条件来选择疑似存在于来自文库的样本中的化合物的一组参考光谱。通过组合来自该组的参考光谱,产生匹配的化合物光谱,其峰与测试光谱的峰相匹配。与用于产生匹配光谱的参考光谱相关联的化合物被认为是样本中包含的化合物的指示。

US 2015/0099668A1公开了使用1H NMR光谱法测定哺乳动物生物样本中生物标志物的水平,并将这些水平与用于表征转移性疾病的一种或多种核心生物标志物参考水平进行比较。

本发明的目的

本发明的目的是允许将流体类别(特别是生物流体)的样本的NMR谱中的峰更加可靠和更容易特别是更快地归属于样本中包含的化合物的NMR自旋系统。

发明概述

根据本发明,通过使用NMR光谱法预测属于流体类别样本中包含的化合物的NMR自旋系统的化学位移值的方法实现该目的,所述方法具有以下步骤:

a)提供表示所述流体类别的捕获特征和属于所述流体类别中包含的化合物的捕获的NMR自旋系统的化学位移值之间的相关信息的模型装置,所述捕获特征包括所述流体类别中包含的捕获物质的浓度,所述化合物在所述捕获物质中,

其中模型装置包括参考NMR自旋系统的定义,其中参考NMR自旋系统是捕获的NMR自旋系统的子集,参考NMR自旋系统属于在流体类别中普遍存在的化合物,

b)记录流体类别样本的NMR谱;

c)鉴定属于模型装置的定义的参考NMR自旋系统的记录的NMR谱中的峰,并从记录的NMR谱确定所述峰的实验化学位移值;

d)通过将模型装置应用于参考NMR自旋系统的实验化学位移值来预测不属于参考NMR自旋系统的至少一个捕获的NMR自旋系统的化学位移值。

本发明提出仅初始鉴定属于预定义的参考NMR自旋系统的流体类别样本的记录的NMR谱中的少许峰,并从记录的NMR谱确定它们的化学位移值(或峰位置)。通过模型装置,基于参考NMR自旋系统的实验化学位移值预测,预测属于不是参考NMR自旋系统的NMR自旋系统(“非参考NMR自旋系统”)的一个或多个其它峰的化学位移值。这些预测可用于高度可靠的峰鉴定。

本发明利用了样本的特定特征(例如所含的特定物质的浓度)同时影响属于不同化合物的许多NMR自旋系统的峰的位置的事实。进而,这对于样本的许多特征(特别是含有的物质的浓度)同时也是如此。这意味着属于所含不同化合物的许多NMR系统的峰的位置通过样本的许多特征(特别是所含物质的浓度)彼此相互依赖。

本发明人发现,由于许多NMR自旋系统的峰位置的相互依赖性,知道感兴趣的NMR自旋系统即参考NMR自旋系统的子集(即部分)的峰位置就足以以良好的精度预测其它NMR自旋系统即非参考自旋系统的峰位置。通过预测属于感兴趣的特定NMR自旋系统的峰的预测峰位置(或化学位移值),可以容易地鉴定所记录的NMR谱中的相应峰。一般来说,最接近NMR自旋系统的预测峰位置的记录的NMR谱中的峰将被认为是属于各自NMR自旋系统的峰。本发明将常规峰鉴定的需要减少至少数参考峰,并且允许非参考NMR自旋系统的峰的简化峰鉴定。

通常选择参考NMR自旋系统,使得针对对于该流体类别(例如生物流体的类型)可以合理地预期的样本特征的所有组合,所述参考NMR自旋系统对应的峰可以容易地在光谱中鉴定,例如由于它们的峰比附近的所有其它峰明显更强,或者它们可以根据其特征形状模式容易地与附近的其它峰区分开。属于参考NMR自旋系统的峰可以在样本的记录的NMR谱中手动(即使不是专家)或通过合适的软件自动鉴定,通常利用其中峰将出现的已知化学位移间隔和/或应用检查标准诸如针对双峰的相同峰积分或强度等。此外,属于参考NMR自旋系统的化合物应以与影响其它NMR自旋系统有关的最小浓度存在于流体类别的任何样本中(“普遍存在的化合物”)。此外,属于参考NMR自旋系统的化合物应显著影响相当数量的NMR自旋系统(可能包括其自身)。

样本所属的流体类别的相互关联信息存储在模型装置中,该模型装置优选地基于来自教学数据库的信息。教学数据库包括对于大量测试样本的样本特征,特别是物质浓度,和属于所含的化合物的如在NMR谱中鉴定的NMR自旋系统的化学位移值(峰位置)。模型装置可以事先推导出来,所以当稍后在步骤d)中计算预测的化学位移值时,只需要应用最终的模型装置,其可以相当快(约几秒钟)地进行,通常只需要求解几个方程。模型装置通常实现为软件工具,优选全自动运行。

应该注意的是,模型装置(和涉及的教学数据库)将有限数量的NMR自旋系统(或其各自的化学位移值)和有限数量的特征相关联。通常,模型装置中包含的特征越多,化学位移值的预测越准确。通常,期望至少将流体类别中最丰富的物质的浓度包括在模型中。此外,覆盖的NMR自旋系统越多,则可预测的NMR谱中的峰越多。

此外,使用的参考NMR自旋系统越多,非参考NMR自旋系统的化学位移值的预测将越准确。然而,当使用太多参考NMR自旋系统时,步骤c)的峰鉴定通常将变得更加困难和耗时。因此,对于参考峰系统的数量R,优选3≤R≤8。关于捕获的非参考NMR自旋系统的数量N,优选R≤1/4*N。

流体类别的特征在于流体类别的任何样本中都含有的许多物质(尽管浓度不同)(普遍存在的物质),并且通常还在于有时以不同浓度包含在流体类别的样本中许多物质(偶尔存在的物质)。一般来说,物质以有限的浓度范围或有限的浓度比范围存在于流体类别的样本中。通常,对于流体类别存在可以被发现(或限定)的至少十种普遍存在的物质,并且对于流体类别有时可以发现(或限定)甚至50种或更多种普遍存在的物质。根据本发明,流体类别通常为水性的,水含量为至少10重量%。

典型的流体类别特定物种(例如人或猫)的特定生物流体(例如尿液或血清);样本变化通常例如在人与人之间发生,或者由于疾病而发生。在生物流体中,物质通常是代谢物。其它流体类别可以是例如保健乳液,调味品(例如番茄酱)或能量饮料。

由用于特定流体类别的模型装置捕获的物质可能是该流体类别已知的普遍存在的物质或偶尔存在的物质。通常,模型装置仅捕获该流体类别的已知普遍存在和/或偶尔存在物质的一部分。

化合物是具有一个或多个NMR自旋系统的普遍存在的物质和/或偶尔存在物质。属于参考NMR自旋系统的化合物选自具有一个或多个NMR自旋系统的(捕获的)普遍存在的物质。

NMR自旋系统通常是1H NMR自旋系统。NMR谱通常为1-维NMR谱。

在上文和下文中,术语“捕获”是指所引用的参数分别包含在模型装置或教学数据库的相关性信息中。样本的“特征”可以包括物质浓度,pH值和/或温度T。“物质”在本文是指流体类别中的分子和/或离子(包括无机离子);注意,没有抗衡离子的单一类型的离子(例如Cl-)可能在这里被认定为物质。“代谢物”在本文是指生物流体中的物质,即分子和/或离子(包括无机离子)。“化合物”在本文是指具有至少一个NMR自旋系统的物质。捕获的NMR自旋系统包括参考NMR自旋系统和非参考NMR自旋系统。

本发明方法的优选变型

涉及参考NMR自旋系统的变型

在本发明方法的优选变型中,参考NMR自旋系统选自那些捕获的NMR自旋系统,其由模型装置确定的化学位移值对于捕获物质的高于平均量的浓度是显著的。这减少了预测误差。优选地,参考NMR自旋系统被选择为使得它们具有最高量的受显著影响的浓度。通常,参考NMR自旋系统应与远离其它峰的强峰一起出现,因此它们可以手动或自动地在不同样本组成的记录的NMR谱中安全地鉴定。受显著影响的浓度的量可以例如通过应用于完全类型的第二子模型(见下文)的项j=1,...,C的ANOVA分解来确定。此外,优选选择参考NMR自旋系统,使得每种物质浓度显著影响参考NMR自旋系统的至少两个化学位移值。

在另一个优选的变型中,使用统计相关分析方法,特别是ANOVA分解或Spearman秩相关或Kendall秩相关或伪计算或典型相关分析来确定参考NMR自旋系统。统计相关分析方法将与物质浓度(或更一般地样本特征)高度相关的NMR自旋系统的化学位移值与低相关的那些区分开来,因此伴随着高相关性(优选最高相关性)的NMR自旋系统可以被选择为NMR参考峰。统计相关分析方法可用于例如通过NMR自旋系统的特定化学位移值来鉴定受显著影响浓度的量。注意,当选择参考NMR自旋系统时,还可以分别考虑NMR自旋系统或其复合物的丰度。

涉及子模型的变型

在优选的变型中,模型装置包括降阶型的第一子模型,其将捕获的特征xj指示为仅参考NMR自旋系统的化学位移值δi的函数f:

xj=fj1,…,δR),

其中j为捕获特征的指数,j=1,...,C,C为捕获特征的数量,i为参考NMR自旋系统的指数,i=1,...,R,R为参考NMR自旋系统的数量。优选地,3≤R≤8。该降阶型的第一子模型给出了应用全类型的第一子模型(见下文)以鉴定非参考NMR自旋系统的化学位移值的基础。降阶型的第一子模型也可以用于样本特征的粗略估计。

还优选的是其中模型装置包括降阶型的第二子模型的变型,其将非参考NMR自旋系统的化学位移值δk指示为参考NMR自旋系统的化学位移值δi的函数f:

δk=fk1,…,δR),

其中k为非参考NMR自旋系统的指数,k=1,...,N,N为捕获的非参考NMR自旋系统的数量,以及i为参考NMR自旋系统的指数,i=1,...,R,R为参考NMR自旋系统的数量。降阶型的第二子模型可以直接给出非参考NMR自旋系统的化学位移值的粗略估计。然而,降阶型的第二子模型也可以为应用全类型的第二子模型和全类型的第一子模型(见下文)以获得非参考NMR自旋系统的化学位移值的改进的估计提供基础。注意,模型装置可以包括降阶型的第一和第二子模型中的仅一个或两者。

在另一个优选的变型中,模型装置包括全类型的第一子模型,其将非参考NMR自旋系统或所有捕获的NMR自旋系统的化学位移值δl指示为捕获特征xj的函数f:

δl=fl(x1,…,xC),

其中l为NMR自旋系统的指数,l=1,...,N,N为非参考NMR自旋系统的数量,或l=1,...,S,S为所有捕获的NMR自旋系统的数量,以及j为捕获特征的指数,j=1,...,C,C为捕获特征的数量。全类型的第一子模型允许至少预测非参考NMR峰的化学位移值,因此与参考NMR自旋系统的实验化学位移值一起,可以基于整组覆盖特征获得所有覆盖的NMR自旋系统的整组化学位移值。它可以用于迭代过程,以提高预测准确度。如果全类型的第一子模型还预测了一些或所有参考NMR自旋系统的化学位移值,则实验和预测化学位移值的比较可以估计模型装置多次应用中达到的收敛程度(见下文)。

进一步优选的是其中模型装置包括全类型的第二子模型的变型,其将特征xj指示为捕获的NMR自旋系统的化学位移值δl的函数f:

xj=fj1,…,δS),

其中j为捕获特征的指数,j=1,...,C,C为捕获特征的数量,l为捕获的NMR自旋系统的指数,l=1,...,S,S为捕获的NMR数自旋系统的数量。全类型的第二子模型允许基于整组化学位移值(其通常是部分实验和部分预测的,但也可以是全部实验或全部预测的)来预测整组捕获特征。全类型的第二子模型通常是用于获得非参考NMR自旋系统的化学位移值的预测的迭代过程的一部分;其也可以用于获得特征的估计,特别是物质浓度,包括非NMR活性的物质如离子的浓度。

在应用引入如上所述的降阶型的第一子模型和全类型的两个子模型的变型的进一步开发中,在步骤d)期间,应用以下子步骤:

d1)将降阶型的第一子模型应用于参考NMR自旋系统的实验化学位移值,以获得预测特征;

d2)将全类型的第一子模型应用于先前子步骤d1)的预测特征,以获得非参考NMR自旋系统的预测化学位移值;

d3)将全类型的第二子模型应用于参考NMR自旋系统的实验化学位移值和在先前子步骤d2)中获得的非参考NMR自旋系统的预测化学位移值,以获得预测特征;

d4)将全类型的第一子模型应用于在先前子步骤d3)中获得的预测特征,以获得非参考NMR自旋系统的预测化学位移值;

特别地,其中子步骤d3)和d4)的序列被重复几次,然后从先前步骤d4)中获得的非参考NMR自旋系统的预测化学位移值开始。这允许非参考自旋系统的化学位移值的相对精确的预测。通过多次应用步骤d3)和d4)的序列,发生化学位移值的收敛,提高预测质量。

在应用引入降阶型的第二子模型和全类型的两个子模型的变型的另外一个进一步的开发中,在步骤d)期间,应用以下子步骤:

d1')将降阶型的第二子模型应用于参考NMR自旋系统的实验化学位移值,以获得非参考NMR自旋系统的预测化学位移值;

d2')将全类型的第二子模型应用于参考NMR自旋系统的实验化学位移值和在先前的子步骤d1')中获得的非参考NMR自旋系统的预测化学位移值以获得预测特征;

d3')将全类型的第一子模型应用于在先前的子步骤d2')中获得的预测特征,以获得非参考NMR自旋系统的预测化学位移值;

特别地,其中步骤d2')和d3'的序列重复几次,然后从在先前步骤d3')中获得的非参考NMR自旋系统的预测化学位移值开始。这再次允许非参考自旋系统的化学位移值的相对精确的预测。通过多次应用步骤d2')和d3'的序列,发生化学位移值的收敛,提高预测质量。

涉及教学数据库的变型

特别优选的是其中模型装置衍生自教学数据库的变型,所述教学数据库针对流体类别的多个教学样本中的每一个包括

-捕获特征的值,包括捕获物质浓度的值,

-和捕获的NMR自旋系统的化学位移值,其通过记录各自教学样本的教学NMR谱和分配特别是手动分配教学NMR谱中的峰至捕获的NMR自旋系统并确定它们的化学位移值来获得。教学数据库可以提供模型装置所需的相关性信息。注意,原则上也可以应用量子力学计算来获得相关性信息,但这是相对困难的。特征的典型数量是20个或更多,通常至少10个特征是属于捕获的NMR自旋系统的化合物的浓度,并且至少5个特征是NMR无活性物质(例如离子如氯离子或氧鎓离子)的浓度。另一种特征可以是样本温度或pH(如果后者不作为物质的浓度处理)。捕获(覆盖)的NMR自旋系统的典型数量为至少20个。数据库中包含的教学样本的总数通常为至少500个,优选至少为1000个,特别优选为至少3000个。教学样本(和测量样本)属于特定的流体类别。流体类别可以特别地被选择为对应于特定类型的生物流体例如尿液。教学样本代表该流体类别的不同组成,优选地以预期存在于测量样本中的范围,例如在生物流体中由于不同的疾病或简单地由于不同的人或来源(但通常不是由于不同的物种,如人和狗)。同样适用于植物衍生产品,它应该是来自不同来源的相同的产品,例如苹果汁。应该注意的是,一旦模型装置已经完全从教学数据库中获得,则教学数据库不再需要应用本发明的方法。

在该变型的进一步开发中,流体类别的教学样本的至少一部分是流体类别的人造样本,特别是其中人造教学样本仅含有由模型装置捕获的物质。对于人造样本,浓度可以被设定并因而是被知晓的。此外,当仅含有有限数量的物质(例如捕获的物质)时,用于准备教学数据库的的目的的峰鉴定更容易。当流体类别对应于生物流体时,这种进一步的开发是特别有用的,其中难以获得“天然”样本并且在建立教学数据库时难以鉴定“天然”样本中的峰,因为可能含有非常大量的化合物。

在另一个有利的进一步开发中,对于每个捕获的物质,包含至少三个,优选至少五个不同浓度的教学样本。这保持低的预测误差。优选地,对于捕获物质包含的不同浓度覆盖了样本中物质浓度的范围;否则预测有更大的误差。对于生物流体,典型的覆盖范围由所选生物流体中天然存在的代谢物的最大和最小浓度(其通常可以在文献中发现)决定。对于人造产品,工业规范可提示覆盖的范围。

优选的进一步开发中,捕获的特征包括温度,并且对于代谢物的每组浓度,包含至少两个不同温度的教学样本。当包括捕获特征中的温度时,在不同温度下获得的样本NMR谱可以通过本发明以更高的预测准确度来处理。还注意,在记录NMR谱期间样本的特定调温是不必要的。

在有利的进一步开发中,模型装置或其一个或多个子模型通过多变量统计算法从教学数据库导出,特别地,其中多变量统计算法是自学习算法。多变量统计算法提供了一个强大的工具,用于从教学数据库中提取相关性信息,并分别将其放入模型装置或其子模型中。在这种情况下,自学习意味着可以将额外的教学样本(或分别地其化学位移值和特征)集成到教学数据库中,使得相关性的统计输出即模型装置可以不断改进,和/或者该方法可以扩展到存在于流体类别中的其它化合物(或分别地化合物的其它NMR自旋系统及其浓度)。

对于上述进一步的开发,多变量统计算法可以选自多元自适应回归(线性和三次)样条(MARS)模型,(正交)部分最小二乘法(PLS)判别分析,主成分分析,主成分回归,多线性回归,局部加权回归,基于马哈拉诺比斯距离的分析,类别软独立建模(SIMCA),K最近邻法,支持向量机(SVM)分析,线性判别分析或经典最小二乘判别分析,人工神经网络,层次建模/聚类,基于分布的聚类,并行因子分析。

其它变型

在优选的变型中,流体类别被选择为生物流体,特别是其中捕获的物质是代谢物。生物流体含有特别大量的化合物,使(常规)峰鉴定非常困难,所以本发明的方法在这里特别有用。对于生物流体,普遍存在的物质和偶尔存在的物质以及它们的浓度范围或浓度比范围通常可以在文献中找到,因此可以很容易地创建教学数据库。应当注意,根据此变型,如果需要或期望,生物流体的样本可以以未稀释状态或稀释状态进行处理。

在该变型的优选进一步开发中,生物流体是体液,优选选自尿液,血清,汗液,唾液或CSF(脑脊髓液),或者生物流体是植物流体,优选选自果汁、chyle或花蜜。使用体液,在本发明分析之后,NMR谱可用于高度可靠的疾病鉴定。就植物流体而言,NMR谱可用于更准确的品质控制或来源验证。

在另一个优选的变型中,流体类别被选择为天然衍生产物,特别是植物衍生产物,优选选自葡萄酒,蜂蜜或调味品。再次,在本发明分析之后,NMR谱可以用于更准确的品质控制或来源验证。

在一个有利的变型中,流体类被缓冲到6.6至7.5的pH范围,特别是使用磷酸盐缓冲液。该程序限制了化学位移值的变化,从而简化了化学位移值的预测。注意,某些类型的流体类别,特别是某些类型的生物流体,如血清,是固有缓冲的,因此样本/测试样本中不需要额外的缓冲。

涉及浓度测定的方法

本发明的范围还在于通过NMR光谱法测定流体类别样本中所含的至少一种物质的浓度的方法,其具有以下步骤:

aa)根据上文所述的本发明的方法的步骤a)至d)预测捕获的NMR自旋系统的非参考NMR自旋系统的化学位移值,

bb)通过预测的化学位移值鉴定属于非参考NMR自旋系统的记录的NMR谱中的峰,并从记录的NMR谱确定所述峰的实验化学位移值;

cc)通过将模型装置应用于参考NMR自旋系统和非参考NMR自旋系统的实验化学位移值,特别是通过应用上文所述的全类型的第二子模型,来计算所述至少一种物质的浓度。这种方法可以很好的预测物质浓度,而无需任何复杂的峰积分或线形拟合。它是相对准确的,因为它使用参考和非参考NMR自旋系统两者的实验化学位移值。优选地,在步骤cc)中使用所有捕获的NMR自旋系统。注意,在步骤bb)中,如果由于太弱而在记录的NMR谱中不能发现峰,则可以将预测的化学位移值视为用于下一步骤cc)目的的实验化学位移值。

进一步在本发明的范围内的是通过NMR光谱法测定流体类别样本中所含的至少一种物质的浓度的方法,其具有以下步骤:

aa')根据上文所述的本发明的方法的步骤a)至d)预测捕获的NMR自旋系统的非参考NMR自旋系统的化学位移值,

bb')通过将模型装置应用于参考NMR自旋系统的实验化学位移值和在步骤aa')中获得的非参考NMR自旋系统的预测化学位移值,特别是通过应用上文所述的全类型的第二子模型,来计算所述至少一种物质的浓度。该方法可以提供物质浓度的快速预测,而无需任何复杂的峰积分或线形拟合。由于只有参考NMR自旋系统的峰必须在NMR谱中鉴定,所以可以在短时间内完成。优选地,在步骤bb')中使用所有捕获的NMR自旋系统。

在上述两种方法的优选变型中,其浓度通过NMR光谱法测定的至少一种物质包括NMR无活性物质,特别是离子。NMR无活性物质(即不具有NMR自旋系统的物质,因此在记录的NMR谱中没有峰属于该物质)可以通过其对其它物质中NMR自旋系统的峰的位置的影响来分析其浓度。注意,通过常规的基于NMR的浓度测定不可获得NMR无活性物质如Cl-离子,因为它们在NMR谱中没有峰可以被积分或用于线形拟合。

在本发明的范围内还有用于测定流体类别样本中所含的至少一种化合物的浓度的方法,其具有以下步骤:

aa”)根据上文所述的本发明的方法的步骤a)至d)预测属于所述化合物的至少一个NMR自旋系统的化学位移值,其中所述至少一个NMR自旋系统是非参考NMR自旋系统,

bb”)通过预测的化学位移值鉴定属于所述至少一个NMR自旋系统的样本的记录的NMR谱中的至少一个峰,

cc”)基于样本的记录的NMR谱中所鉴定的至少一个峰的形状和/或尺寸,特别是通过峰积分和/或线形拟合,来计算化合物的浓度。在该方法中,模型装置的相关性信息用于快速可靠地鉴定所记录的NMR谱中的至少一个峰,然后应用常规浓度测定,例如使用峰积分或线形拟合。这导致对化合物的特别准确和可靠的浓度信息。注意,步骤cc”)通常使用单独的软件模块完成。

从说明书和附图可以提取进一步的优点。上文和下文所提及的特征可以根据本发明单独地或以任何组合的集体地使用。所提及的实施方案不应被理解为详尽的枚举,而是具有用于描述本发明的描述的示例性特征。

发明详述和附图

本发明在附图中示出。

图1:L-天冬酰胺的自旋系统-CH2多重δΟ化学位移值,通过其作为人造尿液混合物中pH和氯离子浓度(mM)变化的拟合模型插值获得。

图2:变量/特征(代谢物浓度,pH,T)对41个1H-NMR(部分)模型的贡献。条表示在多少个模型中将每个变量对于拟合进行加权(显著)。

图3:变量/化学位移值(41个1H自旋系统NMR化学位移)对38个代谢物浓度、pH和T(部分)模型的贡献。条表示在多少个模型中将每个变量对于拟合进行加权(显著)。箭头指出与对于最多数量模型显著的变量相对应的条。

图4:用于预测化学位移值的本发明的方法的所示实施方案的工作流程,在从参考NMR自旋系统的实验化学位移值计算样本特征的降阶型的第一子模型(顶行)开始的变型中,以及在从参考NMR自旋系统的实验化学位移值计算预测的化学位移值的降阶型的第二子模型(从上到下的第二行)开始的变型中,以及另外的用于测定代谢物浓度的三个可选的后续变型。

图5:本发明方法的所示实施方案中20个随机制备的人造尿液混合物中的化学位移分布(上图)及其相应的预测误差分布。

图6:本发明方法的所示实施方案中20个随机制备的人造尿液混合物中的17个代谢物浓度和pH值分布(上图)及其相应的预测误差分布。

图7:本发明方法的所示实施方案中20个随机制备的人造尿液混合物中的12个代谢物浓度分布(上图)及其相应的预测误差分布。

图8:本发明方法的所示实施方案中20个随机制备的人造尿液混合物中的7个代谢物浓度分布(上图)及其相应的预测误差分布。

图9:本发明方法的所示实施方案中20个真实尿样中的化学位移分布(上图)及其相应的预测误差分布。

图10:本发明方法的所示实施方案中60个真实尿液生物流体样本中36个1H自旋系统的δ预测误差。

图11:通过本发明方法的所示实施方案、BQuant、BATMAN和Chenomx NMR分析仪获得的TMAO>1H-NMR峰分布。

图12:7个代谢物的10个1H自旋系统NMR化学位移(由箭头表示),其作为浓度、pH和T模型的显著变量。虚线圈突出显示尿液生物流体NMR谱中最容易分配的。

在下文中,通过实施方案更详细地解释了本发明的方法,其中已经选择特定的生物流体(即人尿液)作为与模型装置和测试样本以及待研究的样本相关的流体类别。因此,在本实施方案中,模型装置的捕获物质为代谢物。然而,应当强调的是,本发明也适用于其它流体类别,特别是其它类型的生物流体如血清,或人造产品的类型如沐浴乳,或天然或植物衍生的人造产品类型如番茄酱。

引言

代谢组学和其它“组学”领域的发展表明它们在现代系统生物学研究中的意义,因为它们能够提取生物体代谢组、蛋白质组和基因组的详细信息1,2。在代谢组学框架中,使用各种光谱法、光谱测定或生物化学技术。其中包括NMR光谱法-一般通过1D-NMR实验-由于其快速、准确和无破坏性的特性3

代谢组学研究需要在诸如生物流体的复杂混合物中鉴定代谢物4-6。困难来自大量的代谢物。在生物流体的NMR谱中,许多代谢物的信号由于磁等效的1H核而重叠,和/或其中一些被生物流体基质的更丰富的代谢物的峰所掩蔽。然而,最大的挑战来自于由于pH、离子强度以及代谢物之间的化学-静电相互作用引起的NMR化学位移变化7。对于表现出高度变异的代谢物含量、离子强度和pH变化性的生物流体如尿液,这个问题特别严重。尿液组成不受如血浆/血清和CSF生物流体中的体内平衡规律的调节;然而,它可能是代谢组学的最有价值的生物流体,因为其采样样本制备简单,代谢信息的富集和丰富含量8。到目前为止,超过3000种物质(有机,无机,离子物质以及少量蛋白质)9在人尿液中检测到,其中已经通过NMR光谱法检测-定量了约300种代谢物10

为了分配和定量代谢物,通常使用以下方法:

i)手动分配-定量。这种方法由以下组成:生物流体样本中的化合物加标和峰积分,使用诸如Chenomx NMR Suite的软件,代谢物NMR谱数据库和/或光谱分箱中的详尽询问。加标许多代谢物是昂贵和耗时的,并且可以显著改变生物流体基质的组成,从而由于先前不存在的相互作用而导致峰偏移,并且其它手动分配程序需要对使用生物流体的工作具有广泛的NMR经验。

ii)使用半自动计算工具。Bayesil11、MetaboMiner12等是一些最著名的软件工具,它们提供从1H-NMR谱的若干种代谢物(通过Bayesil对于血清/血浆样本约50种)定量,同时允许用户改进代谢物的1H-NMR峰的分配-拟合。然而,样本制备和NMR采集需要使用特定的方案,并且生物流体的NMR分析经验仍然是准确代谢物分配的先决条件。

iii)使用自动化计算方法,如BATMAN算法6,Dolphin5和BQuant13。BATMAN(同样适用于BQuant)是一种几乎自动化的工具。一般来说,它使用贝叶斯模型的MCMC估计来最佳拟合代谢物的1H自旋系统,以期对其定量。通常需要大量的计算能力、代谢物的NMR峰位置范围的先前知识以及先前的数据库构建才能获得尽可能多的真阳性结果。然而,由于错误的NMR峰分配获得几个假阳性结果。Dolphin软件包看起来比BATMAN在计算上更“轻”,它仍然基于数据库信息(即HMDB,BMRB等),同时利用2D-JRES光谱增加了代谢物分配和因而其定量的准确性。除了需要高分辨率2D-JRES光谱之外,用户还应定义一个代谢物列表以进行定量。然而,不是所有的代谢物都含有偶联的1H核,并且其中许多仅显示单峰,并且通常它们的NMR信号在相同的光谱区域中共振,同时导致假阳性分配。

总之,成功和准确的代谢物浓度测定的关键前提是其信号的完美分配。以前的方法需要计算时间或计算能力或额外的NMR实验或用户的大量NMR经验,并且仍然不能保证代谢物分配(从而定量)100%成功。

本发明提出用于将化合物(这里为代谢物)或其NMR自旋系统分别分配至它们在NMR谱中的峰的新方法。本发明的方法或其模型装置可以分别在完全自动化的计算工具中实现。

模型装置已经内置于先前通过混合物(测试样本)制造的多个NMR自旋系统中的每一个的位置模型中,并且每次完全自动化(盲)工作。它不对NMR信号的定量和/或分配使用任何拟合程序。然而,如果需要,可以通过下游软件的积分或线形拟合来进行定量。在实践中,模型装置根据传感器(参考)NMR信号ppm值简单地求解“方程”,并提供化合物(这里为代谢物)NMR峰位置的输出以及其浓度的估计。

在所示的实施方案中,模型装置或计算工具在尿液NMR样本中分别自动分配21个代谢物/化合物的41个1H-NMR自旋系统,同时提供另外5个(分子)代谢物/物质和10个主要离子浓度以小相对误差(<10%)的估计,和样本pH值以<±0.1误差的估计,以及在NMR获取期间其温度(T)以±0.1K的估计。NMR谱可由模型装置分析约10秒以提供整组的预测化学位移值和样本特征,特别是化合物浓度。

算法的基础

从NMR的基础,知道溶液混合物中化合物的自旋系统(这里为1H核)的观察到的化学位移(δO)值是核周围的化学环境的精确图像,并且其受到化合物在溶液混合物中经历的各种类型的分子相互作用的高度影响。然而,这些多个弱相互作用对化学位移的影响的细节不可在先预测。一般来说,在快速交换条件下,δΟ值可以与混合物中以多种平衡态存在的相应化合物分子的摩尔分数相关,即与尿液矩阵的任何背景(代谢物的数量n)形成的任何可能(自身-)相互作用的那些分子以及不参与相互作用的那些(Xf):

其中δf分别是代谢物的自旋系统在其本身内和与n个其它代谢物(包括(在这里的)尿液矩阵中的所有存在的化合物)的相互作用中的化学位移值。从方程(1),清楚地表明δΟ值与相互作用化合物的浓度直接相关。如前所述,pH和T变化导致化学位移变化:因此,可以通过以下函数描述来自含有1H核的任何尿化合物的每个1H–NMRδΟ值:

δO=f(x1,…,xn),

(2)

其中变量x是每个可能的相互作用化合物的浓度、pH和T(也称为样本的特征),其对每个1H核NMR化学位移的贡献回报至其δΟ值。

为了构建方程2,需要将所有上述贡献映射到每个δΟ。为了实现这一点,通过构建各种浓度的尿液代谢物的许多混合物来获得真实尿液内容矩阵状态的模拟,获得其1D>1H-NMR谱并记录来自每个代谢物1H自旋系统的每个1H-NMRδΟ。为了改善尿液的模拟,已经将标准应用于人造尿样构建的代谢物的选择。为此,根据HMDB(人代谢组学数据库)和其它书目报道的尿液生物流体中的浓度和出现率(参见材料和实验方法部分)选择最丰富的26种尿液代谢物(分子类型)以及10种离子(或离子型代谢物)。也就是说,所应用的标准是基于通过NMR、MS、LC和其它技术在健康个体的数千个尿液样本中测量的分子代谢物和离子的100%出现率和高丰度14。因此,混合物通过改变每个混合物中一种代谢物的浓度(使用其最低报告浓度为起始点直到这里的平均值(注意,可替代地,也可以使用从最低异常值到最高异常值的间隔),通常具有4个中间值)来制备。在加入用于基于1H-NMR的代谢组学的常用尿液缓冲液之后,对于每个混合物的pH调节遵循相同的实验方案(参见材料和方法部分)。在表1中,给出了混合物的设计结构。共建立了1235个混合物。

表格1

基于表1,构成人造尿液矩阵,其中矩阵的每排含有每种人造尿液混合物的代谢物(分子和离子)浓度信息、pH和T,即方程2的x变量。所示实施方案的混合物矩阵(或教学数据库的第一部分)的大小为1235×38,其中38是变量的总数(26个分子代谢物/物质和10个离子代谢物/物质浓度加上pH和T值,即捕获特征的总数C为38)。每个混合物(或测试样本)的1D>1H-NMR获取与真实尿液相比产生一个适当简单的光谱,其中来自26个代谢物中的21个代谢物(化合物)的41个1H自旋系统δΟ被手动分配,即捕获自旋系统的总数S为41。根据其记录的化学位移值(直到ppm的第四位小数),组成了一个新的1235×41矩阵(或教学数据库的第二部分),其中每列包含1235个人造尿液例的每个自旋系统的δΟ值。就发明人的知识而言,没有对于真实生物流体模拟的这样的系统研究,也没有基于模拟生物流体的NMR的这种矩阵(数据库)构建。Athersuch等人15提出,根据混合物设计将已知比例的不同生物流体样本混合可以改善一些具有重叠NMR信号的代谢物的定量。Sokolenko等人16采用Plackett-Burman实验设计方法产生了20种代谢物的一些合成混合物以解卷积重叠的1H-NMR共振。在任何这些情况下,都没有认为可以预测由于代谢物组成的变化引起的化学位移变化。

算法的实现

如上所述,通常每种物质(分子或离子代谢物)的6种不同浓度(从所示实施方案中的低至均值范围)、5个pH值(缓冲液加入后6.8-7.2范围)和2个温度值(300.0和302.7K)用于人造尿液内容矩阵。为了推导每个研究的自旋系统δΟ值和所有38个变量(浓度,pH,T)之间的最佳相关函数(方程2),采用多变量统计机器学习方法,从而提供最佳拟合以及数据之间的插值。多元自适应回归(线性和三次)样条模型17(MARS模型)(许多类似的机器学习多变量方法被测试,包括人工神经网络)展现出最好的交叉验证的R2值和最低均方根误差(RMSE),以及通过各种测试数据集测试的最佳可预测性(参见算法的预测-计算效率部分)。总之,每个研究的1H自旋系统的方程2采取以下形式:

其中,c0是导出的回归模型的计算常数值,M是用于最佳拟合模型生产的线性或三次样条基函数的数量,cm是第m个的线性或三次样条基函数的系数,并且Bm(x)是线性或三次样条基函数。研究的41个(部分)模型自旋系统的计算的交叉验证的R2和RMSE值分别为>0.98和<1e-04。在图1中,L-天冬酰胺自旋系统-CH2多重峰(2个中的1个)的δΟ值的插值被描绘为pH和氯离子浓度的函数。

通过执行每个(部分)模型的ANOVA分解,可以检测所有加权变量,即对于每个模型的构建是重要的变量。如图2所示,几乎所有41个模型中所有离子(离子代谢物)、特定代谢物(如尿素,马尿酸盐和肌酸酐)的浓度、pH和T都看起来是显著变量。书目数据7以及主要化学知识证实了以前的结果,特别是对于pH、T和离子对化学位移变化的影响。此外,与所有其它代谢物相比,肌酸酐、马尿酸盐和尿素通常在尿液生物流体(如本文使用的混合物)中表现出的高浓度9是这些代谢物在确定许多其它代谢物的化学位移中的重要性的可能起源,并且这个发现进而证实了在初始代谢物组中选择最丰富的代谢物的选择。

在这一点上,实施需要建立反向函数,其鉴于化学位移值,可以重建提供这些值的(分子)代谢物和离子(离子型代谢物)的浓度。相同的数学方法用于构建反向(部分)模型。在这种情况下,响应(y)值是每个物质/代谢物(包括离子)的浓度、pH和T(即样本特征),而变量是41个研究的NMR自旋系统。38个产生的(部分)模型显示出比δΟ(部分)模型更低的交叉验证R2值(>0.90),但是合理地,离子、肌酸酐、尿素、马尿酸盐、pH和温度是完美拟合的(R2>0.98)。38个模型的ANOVA分解显示,来自所研究的41个的1H自旋系统NMR信号可以作为预测人造尿素浓度矩阵的“传感器”。图12中箭头和图3中箭头所突出显示的代谢物的1H核表现出最高的得分。

在尿液中,相对于其它代谢物,柠檬酸盐、肌酸酐以及甘氨酸总是以高浓度存在,并且它们的1H-NMR信号是非常独特的,与天冬氨酸、天冬酰胺、牛磺酸和苏氨酸NMR信号相比允许容易的分配。考虑到这一标准,进行所有浓度、pH和T(部分)模型的降阶。仅使用5个变量(即参考NMR系统的数量R在此为5)构建了38个降阶(部分)模型:肌酸酐的两个单峰,柠檬酸盐的两个双峰和甘氨酸的单峰,其在图12中以虚线圆突出显示。显然,新拟合模型的交叉验证R2和RMSE值比全模型更差(参见表2中的一些示例);然而,5个传感器(或参考NMR自旋系统)的先前提到的NMR信号位置的知识可以通过其NMR特征谱非常充分地(作为起始点)预测每个人造尿液混合物中的(分子)代谢物和离子(离子代谢物)的浓度以及pH和T值,而无需使用任何拟合程序和/或依赖于来自数据库的代谢物NMR特征模板或NMR信号积分。

表2

5个传感器NMR信号的检测提供了探索它们与其余代谢物的上述研究的NMR信号中的每一个之间的相关性的机会。即,使用1235个混合物中的5个传感器峰位置作为变量(其R2和RMSE值的实例在表3中报告)创建了36个新的δΟ(部分)模型(遵循相同的数学方法),即非参考NMR自旋系统的数量N在这里是36。拟合的δΟ降阶(部分)模型(函数)显示出高的R2和低RMSE值,证明36个1H自旋系统NMR信号位置可以通过5个传感器峰位置的位置进行预测。

总而言之,创建了4个不同类型的模型(或者更准确地说是模型装置的子模型):

i)2种完全模型。第一种(也称为全类型的第一子模型)包括通过混合物的物质/代谢物浓度、pH值和T值(38个变量)的知识来预测41个1H自旋系统NMR峰位置,第二种(也称为全类型的第二子模型)包括通过41个1H自旋系统NMR峰位置预测36个物质/代谢物浓度、pH和T。

ii)2种降阶模型。通过5个传感器NMR信号位置的物质/代谢物浓度、pH和T的38个预测(部分)模型(一起代表降阶型的第一子模型)和基于5个传感器NMR峰位置的36个1H自旋系统δΟ值的预测(部分)模型(一起表示降阶型的第二子模型)。

表3

基于最佳代谢物的NMR信号位置预测(在60个真实尿液样本和20个随机制备的人造尿液混合物中进行测试),4种模型的组合(比较图4)导致了最终算法的构建。化合物浓度预测仅集中于随机人造混合物,其中物质(包括离子的代谢物)浓度已知。

图4中所示的最终算法可以以两种变型执行。在第一个变型中,如顶行所示,从记录的NMR谱读取的五个传感器峰(或参考NMR自旋系统的实验化学位移值)10在子步骤d1)中喂至降阶型的第一子模型1R,得到样本的预测代谢物浓度、pH值和T值(即38个预测特征)的输出值11。根据这些预测特征,将全类型的第一子模型1F应用于子步骤d2),从而获得非参考NMR自旋系统的36个预测化学位移值δ0的输出12。与参考NMR自旋系统的实验化学位移值10一起,这些在子步骤d3)中被输入到完全类型的第二子模型2F中,从而再次产生预测特征13。在子步骤d4)中,这些被再次喂至全类型的第一子模型1F,以获得第二迭代的进一步预测的化学位移值的输出14(注意,如果需要,可以应用子步骤d3)和d4)的进一步迭代)。所得到的预测化学位移值可用作最终的预测化学位移值30。

在下面一行所示的第二种替代变型中,从记录的NMR谱读取的五个传感器峰(或参考NMR自旋系统的实验化学位移值)10在子步骤d1')中喂至降阶型的第二子模型2R,得到非参考NMR自旋系统的36个预测化学位移值δ0的输出21。与参考NMR自旋系统的实验化学位移值10一起,在子步骤d2')中将它们输入到全类型的第二子模型2F中,得到预测特征22。在子步骤d3')中,这些被再次喂至全类型的第一子模型1F,以获得进一步预测的化学位移值的输出23。在所示的示例中,该输出23与参考NMR自旋系统的实验化学位移值10一起用于子步骤d2')和d3')的第二次迭代,从而获得第二次迭代的预测浓度的输出24和第二次迭代的预测化学位移值的输出25(如果需要,可以应用步骤d2’)和d3’)的进一步迭代)。所得到的预测化学位移值可以再次用作最终的预测化学位移值30。

对于(可选)进一步确定代谢物浓度,可以将先前描述的算法视为其中已经确定非参考NMR自旋系统的化学位移值30的第一步骤aa)或aa')或aa”)。

如果需要快速估计代谢物浓度,在粗略的准确度就足够了的情况下,非参考NMR自旋系统的最终预测化学位移值30(连同参考NMR自旋系统的实验化学位移值10)可以在步骤bb')中使用,再一次应用全类型的第二子模型2F,得到预测特征的输出31,包括代谢物浓度(注意,如果仅特定浓度是感兴趣的,则仅仅应用全类型的第二子模型2F的部分模型可以是足够的)。此方法在下文中进一步使用(特别是图6-8)用于浓度测定。注意,如果需要,可以应用此程序来得到NMR无活性代谢物的浓度。

如果需要更准确的估计,但是要避免峰积分或线形拟合的工作,则最终预测化学位移值30可用于鉴定NMR谱中非参考NMR自旋系统的峰,并在步骤bb)中读出其实验化学位移值。该输入32可以用于步骤cc)中,再一次应用全类型2F的第二子模型,以获得包括代谢物浓度的预测特征的输出33(再次注意,如果仅特定浓度是感兴趣的,则仅仅应用全类型的第二子模型2F的部分模型可以是足够的)。注意,如果需要,也可以应用该程序来得到NMR无活性代谢物的浓度。

最后,如果需要化合物(或NMR活性代谢物)浓度的高准确度,则最终的预测化学位移值30可用于在步骤bb”)中鉴定NMR谱中的所述化合物的至少一个(非参考)NMR自旋系统的峰并且从所鉴定的峰(或多个峰)34的大小和形状导出浓度信息,例如通过峰积分或线形拟合。

算法的预测-计算效率

A)人造尿液混合物测试。

产生了20个人造尿液混合物,其含有随机物质/代谢物(分子和离子)浓度值(通过随机函数发生器计算)和pH值,并且在不同温度下获得其NMR谱。所有随机值都在应用模型的浓度、pH和T矩阵的限度内。在20个NMR谱中,5个传感器信号位于化学位移矩阵极限内。

图5中总结了δΟ预测误差分布,如所示的,其预测准确度几乎完美。即,所有36个预测的1H自旋系统NMR位置都显示出小于或等于±0.0002ppm的误差。虽然小误差是由人造的而不是真正的尿液样本产生的,但它们验证了所选择的用于NMR峰位置预测的数学算法方法。

此外,所有离子、肌酸酐、马尿酸盐、天冬氨酸,天冬酰胺和尿素浓度、pH和T预测显示小于2-4%的相对误差,而所有其它代谢物浓度以5-15%的相对误差预测。如图6-8所示,代谢物浓度和pH的相对预测误差分布与二十个人造尿液测试混合物中代谢物浓度的大分布相比非常小。即,所提出的算法可以提供尿样代谢物浓度范围的信息,而没有任何NMR信号积分-解卷积。

B)对真实尿样进行测试。

选择60个不同的真实尿液样本进行自动信号预测,条件是构成算法的输入文件的5个传感器化学位移(或参考NMR系统的实验化学位移值)位于所示实施方案的化学位移矩阵的限度内。由于模型外推效率低,特别是当输入文件的5个值远离化学位移矩阵上下限时,所以设置了这一标准。所提出的算法的这个限制是由于它由相当窄的代谢物/物质浓度(书目中的低和平均值)、pH(6.8-7.2)范围构建和训练的事实(注意,对于范围更广的教学数据库,这个限制被克服)。

图9描绘了显示最高误差分布的60个真实尿样中的20个的δΟ预测误差分布,图10总结了所有60个真实尿液生物流体的绝对预测误差。δΟ预测误差为≤|0.0015|ppm,在考虑到使用的人造尿液代谢物混合物形成时,这是十分令人满意的。根据1D>1H-NMR生物流体光谱的其它半自动靶向代谢物检测方法(例如贝叶斯方法误差:≤|0.0020|),算法的δΟ预测已经表现出较低的误差范围。图11中示出了比较实例,其中问询是在健康人的尿液NMR特征谱中TMAO代谢物的分配。NMR谱装载在2015年版的Chenomx>1H-NMR单峰的候选峰。使用BQuant和BATMAN软件对TMAO的分配和定量(给定区域3.26-3.30ppm)大约需要15-20分钟,其分配结果是右箭头指向的NMR峰41。我们的自动化算法的1Η-NMRΤΜΑΟ((CH3)3NO)δΟ预测(在10秒内执行)由虚线垂直线和箭头指出。

根据加标结果,正确的TMAO的1H-NMR峰42由左箭头和勾号指出。所有自动化方法(除了本发明的)都显示出假阳性结果,而本发明的预测误差为±0.0002ppm,通过使用一般笔记本电脑在几秒内计算出。

结论

本发明的方法允许快速的δΟ“准确”预测(目前为止≤|0.0015|ppm);离子浓度(通过NMR)和其它代谢物浓度、pH和温度的进一步快速预测是可行的,具有通过数学方法的非常小的相对误差(≤2%),并且无需代谢物NMR谱拟合程序。该方法在实践中不需要高计算能力。该方法非常适合完全自动化的程序。不需要特定的NMR方案,如特定的NMR谱解析,扫描次数或甚至特定的具有特定缓冲能力的样本制备方案。只需要TSP作为参考化合物。

材料与实验方法

1)NMR样本制备。

从Sigma公司购买了26种尿液(分子)代谢物。这些代谢物以及从其提取10种研究离子的盐列于表4中。在每个NMR样本最终体积中使用10%的普通尿缓冲液。该缓冲液含有1.5M KH2PO4,2mM>3和作为NMR参考化合物的0.1%TSP,其溶于D2O,99.8%2H中。通过加入4N浓度的HCl或NaOH溶液调节NMR样本的pH,并通过pH计在298K下测量。

表4:人造尿液混合物中使用的代谢物和离子的列表。

2)NMR实验

使用在600.13MHz质子拉莫尔频率下操作并配备有5mm CPTI>1H-13C/31P-2H冷冻探针的Bruker>

3)计算平台

算法在MATLAB R2014a计算环境中开发,并且其应用需要MATLAB。所有MARS模型-函数都是通过使用可免费获得的ARESlab工具箱(Jekabsons G.,ARESLab:AdaptiveRegression Splines toolbox for Matlab/Octave,2015,可获得于http://www.cs.rtu.lv/jekabsons/)产生的。本发明人开发了算法的所有其它特征。

参考文献

1.Holmes,E.et al.Human metabolic phenotype diversity and itsassociation with diet and blood pressure.Nature 453,396–400(2008).

2.Weckwerth,W.,Loureiro,M.E.,Wenzel,K.&Fiehn,O.Differential metabolicnetworks unravel the effects of silent plant phenotypes.Proc.Natl.Acad.Sci.United States Am.101,7809–7814(2004).

3.Larive,C.K.,Jr.,G.A.B.&Dinges,M.M.NMR Spectroscopy for Metabolomicsand Metabolic Profiling.Anal.Chem.87,133–146(2015).

4.Astle,W.,De Iorio,M.,Richardson,S.,Stephens,D.&Ebbels,T.A BayesianModel of NMR Spectra for the Deconvolution and Quantification of Metabolitesin Complex Biological Mixtures.J.Am.Stat.Assoc.107,1259–1271(2012).

5.Gómez,J.et al.Dolphin:A tool for automatic targeted metaboliteprofiling using 1D and 2D 1H-NMR data.Anal.Bioanal.Chem.406,7967–7976(2014).

6.Hao,J.et al.Bayesian deconvolution and quantification ofmetabolites in complex 1D NMR spectra using BATMAN.Nat.Protoc.9,1416–27(2014).

7.Jiang,L.,Huang,J.,Wang,Y.&Tang,H.Eliminating the dication-inducedintersample chemical-shift variations for NMR-based biofluid metabonomicanalysis.Analyst 137,4209–4219(2012).

8.Emwas,A.-H.et al.Standardizing the experimental conditions forusing urine in NMR-based metabolomic studies with a particular focus ondiagnostic studies:a review.Metabolomics 11,872–894(2014).

9.Wishart,D.S.et al.HMDB:the Human Metabolome Database.Nucleic AcidsRes.35,D521–D526(2007).

10.Bouatra,S.et al.The human urine metabolome.PLoS One 8,e73076(2013).

11.Ravanbakhsh,S.et al.Accurate,Fully-Automated NMR SpectralProfiling for Metabolomics.PLoS One 10,e0124219(2015).

12.Xia,J.,Bjorndahl,T.C.,Tang,P.&Wishart,D.S.MetaboMiner--semi-automated identification of metabolites from 2D NMR spectra of complexbiofluids.BMC Bioinformatics 9,1–16(2008).

13.Zheng,C.,Zhang,S.,Ragg,S.,Raftery,D.&Vitek,O.Identification andquantification of metabolites in 1H NMR spectra by Bayesian modelselection.Bioinformatics 27,1637–1644(2011).

14.Wishart,D.S.et al.HMDB:a knowledgebase for the humanmetabolome.Nucleic Acids Res.37,D603–10(2009).

15.Athersuch,T.J.,Malik,S.,Weljie,A.,Newton,J.&Keun,H.C.Evaluation of1 H NMR Metabolic Profiling Using Biofluid Mixture Design.Anal.Chem.85,6674–6681(2013).

16.Sokolenko,S.et al.Profiling convoluted single-dimension proton NMRspectra:A plackett-burman approach for assessing quantification error ofmetabolites in complex mixtures with application to cellculture.Anal.Chem.86,3330–3337(2014).

17.Friedman,J.H.Multivariate adaptive regression splines.Ann.Stat.19,1–141(1991).

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号