法律状态公告日
法律状态信息
法律状态
2017-10-24
授权
授权
2015-11-04
实质审查的生效 IPC(主分类):G01N21/359 申请日:20150713
实质审查的生效
2015-09-30
公开
公开
技术领域
本发明涉及一种样品成份测定方法,特别涉及一种基于优化偏最小二乘回归模型的样品 成份测定方法。
背景技术
近些年,近红外光谱检测技术由于快速、无损、低成本等特性已广泛地应用于石油化 工、食品行业、医药生物和环境检测等行业。红外光谱采集的理论基础是朗伯比尔定律 (Lambert Beer Law),即各物质的吸收在光谱上的表现为一种线性叠加方式。与传统的化 学分析方法不同,近红外光谱分析是利用一组已知样品通过多元校正方法建立模型,然后对 待测样品进行预测。
在多元校正方法中,偏最小二乘(PLS)回归是一种多因变量对多自变量的回归建模方 法,可以较好的解决许多以往用普通多元回归无法解决的问题;并且就目前的发展看来, PLS是所有多元校正方法里对变量约束最少的方法,可以有效解决变量间的多重相关性问 题,更适用于样本个数少于变量个数的情况。PLS由于上述特性在多元光谱校正建模中得到 广泛应用。
作为多元统计数据分析方法,PLS于1983年由伍德和阿巴诺等人首次提出。近十年 来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二 乘为第二代回归分析方法。其重要性主要体现在以下几个方面:(1)PLS是一种多因变量对 多自变量的回归建模方法;(2)PLS可以有效地结局多重共线性的问题,它利用对系统中的 数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信 息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用;(3)PLS可以实现多 种数据分析方法的综合应用,它综合了多元线性回归、主成分回归和典型相关回归的优点。
PLS方法是建立在X(自变量或光谱变量)与Y(因变量或化学变量)矩阵基础上的双 线性模型,可以看作是由外部关系(即独立的X块和Y块)和内部关系(即两块间的联 系)构成。PLS首先对X和Y矩阵进行分解,形成的外部关系模型为:
其中T和U分别为X和Y的得分矩阵;ti和ui分别为T和U中的第i个潜变量数的得分向 量;P和Q分别为X和Y的载荷矩阵;pi和qi分别为P和Q中的第i个潜变量数的载荷向 量;EX和EY分别为X和Y的残差矩阵;A代表所抽取的潜变量的个数。
然后,PLS第二步是在潜变量空间T和U上一步形成的潜间变量空间(低维度空间) 中,建立起X自变量的潜变量与因变量Y的潜变量之间的线性回归模型。潜变量空间中形 成的内部关系模型可以间接反映自变量与因变量之间的关系,其式子如下:
U=TV+EU=[b1t1,...,bAtA]+EU
其中矩阵V为回归系数矩阵,EU为U的残差矩阵。
实际上,在用近红外光谱数据对偏最小二乘回归(Partial Least Squares Regression, PLSR)建模过程中,有些得分与预测结果成正相关,有些得分与预测结果成负相关。该算 法中存在的问题:(1)潜变量可能对预测精度产生负面影响,即随着潜变量数在适当范围的 增加,预测误差反而会上升,这样则无法对样品成分进行很好的标定;(2)在交叉验证过 程中,有一些后续舍弃的潜变量会对样品成分的标定产生有益影响。
发明内容
本发明的目的在于,提供一种基于优化偏最小二乘回归模型的样品成份测定方法。它可 以克服使用偏最小二乘回归方法对红外光谱数据进行建模时产生的负面影响,而且可以提高 样品成份的测定精度。
本发明的技术方案:基于优化偏最小二乘回归模型的样品成份测定方法,其特点是,包 括以下步骤:
S1.采集样品的近红外光谱数据和样品成分含量数据;
S2.在步骤S1采集的近红外光谱数据和成份含量数据的基础上,建立基于潜变量优化 选择的偏最小二乘回归模型(以下简称LOPLSR);
S3.采集未知样品的近红外光谱数据,用步骤S2建立的模型预测该未知样品的成分含 量。
上述的基于优化偏最小二乘回归模型的样品成份测定方法中,所述步骤S2的具体方法 是:
P1.在以样品对近红外光谱的吸光度为自变量矩阵X,相应地以样品的化学成份含量为 应变量矩阵Y的基础上,把参与建模的数据集分为训练数据集和标 定数据集
P2.利用偏最小二乘回归法建立模型后对训练数据集Xtr和Ytr进行训练求得Xtr的投影 矩阵W、得分矩阵T、载荷矩阵P,Ytr的载荷矩阵Q、得分矩阵U,T和U内部关系的 回归系数矩阵V,以及外部回归系数矩阵B,根据Xca和得到Yca的预测值若 新增潜变量数降低了预测值的预测精度,则权值置为0,否则置为1,继续测试后续潜变 量数后得到关于权值的对角矩阵D,将W、T、P、Q、U和V分别与D相乘相应得 到优化后的参数WL、TL、PL、UL、QL和VL。
本发明的LOPLSR方法在训练过程中,把使预测误差下降的潜变量数对应的权值设置 为1,是预测误差上升的权值设置为0。假如潜变量数i对应的潜变量与预测误差成负相关, 则对角矩阵D的第i个对角元素di,i=0,否则di,i=1。根据以上的描述,可以得到LOPLSR 建模过程的相关潜变量与PLSR过程中潜变量的关系,可具体表示为:
wL,i=di,iwi
tL,i=di,iti
pL,i=di,ipi (1)
uL,i=di,iui
qL,i=di,iqi
vL,i=di,ivi
直至潜变量数迭代完毕,可以得到LOPLSR与PLSR参数之间的关系,参数WL、TL、 PL、UL、QL和VL的优化公式表示为:
其中,D就是LOPLSR求得的权值矩阵,
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,所述步骤S3为:
通过采集待测样品对近红外光谱的吸光度作为待测数据集Xte,用投影矩阵WL和载荷 PL,求得数据集Xnew的得分矩阵Tp,然后根据VL,求出Ynew的得分矩阵Up,最后根据 得到待测数据集Xte所对应的样品成份含量预测值
当新来数据集Xnew、Ynew时,按照公式(2)和(3)对投影矩阵WL和载荷PL中的向量 不断更新,求得数据集Xnew的得分矩阵Tp,其计算公式如下:
tp,1=XnewwL,1
tp,2=(Xnew-tp,1pL,1T)wL,2
……
潜变量数执行完毕后,Xnew的得分矩阵为
Tp=[tp,1,tp,2,…tp,A] (9)
根据LOPLSR中UL与TL的得分向量的内部关系VL,可以求出Ynew的得分矩阵,可表 示为
Up=[up,1,up,2,…,up,A] (10)
LOPLSR算法中用于预测求得的矩阵Up和QL与原PLSR算法求得的U和Q的之间关系 表示如下:
利用求得的Up和QL对Xnew样品浓度或成分进行预测,公式如下:
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,本发明建立训练模型的具 体方法可以是:
(1)把训练数据集X,Y分为训练集Xtr,Ytr和标定集Xca,Yca;
(2)初始化变量,E0=Xtr,F0=Ytr;
(3)对潜变量数A进行循环,For i inA;
(4)设置第i个潜变量的权值,di,i=1
(5)根据拉格朗日乘子法求得Xtr第i个潜变量数的权重向量,
(6)提取Xtr的得分向量,tL,i=EiwL,i;
(7)计算Xtr的载荷,pL,i=(Ei-1TtL,i)/(tL,iTtL,i);
(8)计算Ytr的载荷,qL,i=(Fi-1TtL,i)/(tL,iTtL,i);
(9)计算Ytr的得分:uL,i=Fi-1qL,i/(qL,iTqL,i);
(10)计算Xtr和Ytr得分之间的关系:vL,i=uL,iTtL,i/(uL,iTuL,i);
(11)把求得的wL,i,pL,i,qL,i,vL,i加入到
WL=[WL,wL,i],PL=[PL,pL,i],QL=[QL,qL,i],VL=[VL,vL,i];
(12)计算剩余残差,Ei=Ei-1-tL,ipL,iT,Fi=Fi-1-tL,iqL,iT;
(13)求得Yca的预测值
(14)求Yca的预测均方根误差,
(15)给rmin赋初值,If i=1Then rmin=RMSE;
(16)判断当前误差是否是最小值,If rmin≥RMSE Then rmin=RMSE Else di,i=0;
(17)循环结束后,得到权值矩阵D、PL、QL、WL和VL。
在预测时,只要获取新样品的光谱矩阵Xnew,可以由下式得到其相应的浓度预测值:
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,建立偏最小二乘回归模型 时,通过选取最优潜变量数以确保模型的质量(稳定性和精确度);选取最优潜变量数量, 就是选取pls回归模型的最重要参数,该参数决定模型的优劣,潜变量数量过多模型会出现 过拟合,数量不足,模型会出现欠拟合,这点可以通过交叉验证误差来判定。
还包括最优潜变量数的选取:将训练数据集随机划分为训练集和校正集,利用K-fold 交叉验证,将校正集X、Y平均分为k份,每一份轮流当做测试集,其余k-1份用作训练 集,运用公式预测误差求得k个均方根误差RMSE,并求得k 个个RMSE的均值,其中n2测试集的行数;然后对每个潜变量均进行相同的K-fold交叉验 证,分别求得每个潜变量所对应的RMSE的均值,以RMSE的均值最小的潜变量数为最优 潜变量数。
交叉验证的目的是选择最优潜变量数,从而建立良好的校正模型。该算法原采用K折 交叉验证的算法,但在本实验中,计算误差的方法与原来的方法有所差异,运用公式(14) 进行计算rmsei,K折交叉验证法得到的k个值取均值r,方法如下:
为每一个潜变量数进行一次交叉验证得到一个均值,选取均值最小的潜变量数。
K折交叉验证的算法步骤为:
1.将训练数据集随机划分为训练集和校正集(可取3:1的比例,训练集的占总数比一 般要大于50%)。
2.运用改进的基于潜变量优化的偏最小二乘回归算法对划分好数据集的校正集进行浓 度或成分预测。
3.计算均方根误差。
4.跳转到步骤1,继续运行K-1次,每一次都得到一个均方根误差,这样将得到K个 均方根误差;
5.求K个均方根误差的均值。
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,作为优选,所述待测样品 为有机物,相对而言,本发明的方法更适用于测定有机物的成份。
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,作为最优方案,所述待测 样品为肉类,本发明的方法在测定肉类成份时尤为精准。
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,作为最优方案,所述待测 样品为草,本发明的方法在草成份时也尤为精准。
与现有技术相比,本发明的方法在已有PLSR的基础上,利用训练过程中数据集的预测 误差的变化情况,来确定相应的潜变量数。若新增潜变量数降低预测精度,则把该潜变量对 应的权值设置为0,否则保持不变(权值为1),继续测试后续潜变量以实现潜变量数的优 化,在结合新来的待测样品近红外光谱数据时可生成与原有PLSR不同的样品的得分向量和 载荷,从而得到待测样品的预测值。
从本质上来说,本发明的方法剔除了使预测结果变差的潜变量所对应的相关项,因此, 大多数情况下,本模型预测精度更高。
通过对大量不同样本的实际测试,使用本发明的方法建模时,模型预测误差总体呈现下 降趋势,模型能够克服过拟合现象。通过比较可发现,PLSR建立的模型的预测均方根误差 大于本发明方法建模的,即本发明的方法得到的预测值更为接近实际值,也即本发明的预测 方法相对更为精准。
如果以改进率h进行表示本发明的方法相对于PLSR方法的精度提高程度,则本发明的 方法可以使精度普遍得到较大幅度的改善:
以草的试验例来说,本发明的方法在预测草中C、N和S含量时,改进率h分别可达 24.9%、38.9%和53.6%。
而以肉的实验例来说,本发明的方法在预测肉中水、脂肪和蛋白质时,改进率h分别可 达32.1%、21.1%和24.2%。
附图说明
图1是实验例1中Tecator(Water)最优潜变量数的选取过程;
图2是实验例1中Tecator(Water)训练误差比较;
图3是实验例1中Tecator(Water)PLS和LOPLS方法载荷选取情况对比;
图4是实验例1中Tecator(Water)预测误差比较;
图5是实验例1中Tecator(Fat)最优潜变量数的选取过程;
图6是实验例1中Tecator(Fat)训练误差比较;
图7是实验例1中Tecator(Fat)PLS和LOPLS方法载荷选取情况对比;
图8是实验例1中Tecator(Fat)预测误差比较;
图9是实验例1中Tecator(Protein)最优潜变量数的选取过程;
图10是实验例1中Tecator(Protein)训练误差比较;
图11是实验例1中Tecator(Protein)PLS和LOPLS方法载荷选取情况对比;
图12是实验例1中Tecator(Protein)预测误差比较;
图13是实验例2中Grass(C)最优潜变量数的选取过程;
图14是实验例2中Grass(C)训练误差比较;
图15是实验例2中Grass(C)PLS和LOPLS方法载荷选取情况对比;
图16是实验例2中Grass(C)预测误差比较;
图17是实验例2中Grass(N)最优潜变量数的选取过程;
图18是实验例2中Grass(N)训练误差比较;
图19是实验例2中Grass(N)PLS和本发明的LOPLS方法载荷选取情况对比;
图20是实验例2中Grass(N)预测误差比较;
图21是实验例2中Grass(S)最优潜变量数的选取过程;
图22是实验例2中Grass(S)训练误差比较;
图23是实验例2中Grass(S)PLS和本发明LOPLS方法载荷选取情况对比;
图24是实验例2中Grass(S)预测误差比较;
图25是本发明实施例的方法流程示意图。
具体实施方式
下面结合实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。对本发明 所做的任何形式上的变通和/或改变都将落入本发明保护范围。
本发明的实施例:基于优化偏最小二乘回归模型的样品成份测定方法,如图25所示, 包括以下步骤:
S1.采集样品的近红外光谱数据和样品成分含量数据;
S2.在步骤S1采集的近红外光谱数据和成份含量数据的基础上,建立基于优化偏最小 二乘回归模型;
S3.采集未知样品的近红外光谱数据,用步骤S2建立的模型预测该未知样品的成分含 量。
所述步骤S2的具体方法是:
P1.在以样品对近红外光谱的吸光度为自变量矩阵X,相应地以样品的化学成份含量为 应变量矩阵Y的基础上,把参与建模的数据集分为训练数据集和标 定数据集
P2.利用偏最小二乘回归法建立模型后对训练数据集Xtr和Ytr进行训练求得Xtr的投影 矩阵W、得分矩阵T、载荷矩阵P,Ytr的载荷矩阵Q、得分矩阵U,T和U内部关系的回 归系数矩阵V,以及回归系数矩阵B,根据Xca和得到Yca的预测值若新增潜 变量数降低了预测值的预测精度,则权值置为0,否则置为1,继续测试后续潜变量数后 得到关于权值的对角矩阵D,将W、T、P、Q、U和V分别与D相乘相应得到优化 后的参数WL、TL、PL、UL、QL和VL。
所述步骤S3为:
通过采集待测样品对近红外光谱的吸光度作为待测数据集Xte,用投影矩阵WL和载荷 PL,求得数据集Xnew的得分矩阵Tp,然后根据VL,求出Ynew的得分矩阵Up,最后根据 得到待测数据集Xte所对应的样品成份含量预测值
建立偏最小二乘回归模型时,通过选取最优潜变量数以确保模型的质量;
其中括最优潜变量数的选取方法是:将训练数据集随机划分为训练集和校正集,利用 K-fold交叉验证,将校正集X、Y平均分为k份,每一份轮流当做测试集,其余k-1份用作 训练集,运用公式预测误差求得k个均方根误差RMSE,并求 得k个个RMSE的均值,其中n2测试集的行数;然后对每个潜变量均进行相同的K-fold交 叉验证,分别求得每个潜变量所对应的RMSE的均值,以RMSE的均值最小的潜变量数为 最优潜变量数。
所述待测样品为有机物,且对于肉类和草的测定尤为精确。
实验例1:测定肉类中的水分、脂肪和蛋白质的含量。
1.实验数据来源
Tecator为肉类的近红外透射光谱数据,共有240个样品,波长范围为850-1050nm,采 样间隔为2nm。采集光谱的同时,采用标准的化学分析手段测得样品中的水分(Water)、脂 肪含量(Fat)和蛋白质含量(Protein)。本实验中对样品集进行划分,得到训练样品为180个 和测试样品为60个。
2.处理和对比方法
对于上述每一个训练集和测试集,我们分别采用PLS方法和本发明的方法(以下简称 LOPLSR方法)进行校正。采用K折交叉验证分别为上述数据的PLSR和LOPLSR方法选 取最好的主成分数,首先比较两种方法的训练误差,其次计算两种方法的预测均方根误差, 最后,计算各数据集的LOPLSR方法相对PLSR的改进程度,采用改进率h进行表示:
3.实验结果与讨论
(1)最优潜变量数的选取
在PLSR和LOPLSR方法中,必不可少的是潜变量数的确定,选择合适的潜变量数,有 利于建立一个稳定的准确的预测模型。若潜变量数的取值偏小,则会导致欠拟合现象,即模 型没有达到最佳状态;若潜变量数的取值偏大,则会导致过拟合现象,即模型在达到最佳状 态之后,又往坏的方向发展,这两种情况均不能达到很好的训练效果,由此可见,潜变量数 的选取过程是至关重要的。我们采用10折交叉验证的方式来确定最优潜变量数,最大潜变 量数(即最大主成分数)取为15。
最后确定Tecator的Water的PLSR和LOPLSR的最优潜变量数为15和15,Fat的PLSR 和LOPLSR的最优潜变量数为15和15,Protein的PLSR和LOPLSR的最优潜变量数为14和 15,选取过程分别如图1、图5和图9所示。
(2)训练误差比较
用PLS和LOPLSR方法分别处理Tecator样品数据并分别进行比较,其目的在于确定用 训练数据建立的模型在潜变量数的范围内是否过拟合,训练误差的比较分别如图2、图6 和图10所示。
结果表明,数据集Tecator在训练过程中模型总体呈现下降趋势,说明模型没有出现过 拟合现象。在训练过程中,LOPLSR方法训练数据的得分和载荷与PLSR相比则发生了变 化,具体的载荷变化情况如图3、图7和图11所示。表1则具体展示LOPLSR载荷随潜变 量数的变化过程。
表1 LOPLSR载荷随潜变量数的变化过程
(3)预测误差的比较
根据前面数据选择的最优潜变量数,计算了Tecator测试数据的PLSR与LOPLSR的预 测均方根误差,具体比较如图4、图8和图12所示。结果发现,两种方法的所得的预测值 与真实值的比较点均在直线y=x周围,而且LOPLSR方法比PLSR方法所得的预测结果更 接近直线y=x,说明LOPLSR方法可以更准确的预测数据,预测结果的对比如图4、图8 和图12所示。PLSR与LOPLSR所得的各种测试数据表2所示。
表2 PLSR与LOPLSR预测结果的比较
其中RMSECV表示交叉验证过程中所有潜变量中最小的交叉验证误差;RMSEC表示 模型训练过程中的误差;RMSEP表示模型训练结束后的预测误差。
通过计算PLSR与LOPLSR方法的预测根均方误差(RMSEP)来衡量对模型改进程 度,由上表的PLSR和LOPLSR的预测结果,计算各数据集的LOPLSR方法相对PLSR的 改进率h,其具体值如表3所示。
表3 LOPLSR相比PLSR的改进率
对于不同的数据集,LOPLSR的预测精度相比PLSR的都有所提高,其预测精度最低 也提高了21.1%,因此本发明的方法相对于传统方法具有较为显著的优势。
实验例2:测定草中的碳、氮、硫的含量。
1.实验数据来源
Grass是草的近红外光谱反射数据,该数据集对草样品的1050个测量点进行标准化判 别,数据集中包含141个草样品,光谱波长以2nm的间隔分布在1100-2498nm范围内。每 个样品的属性包含碳、氮、硫,范围分别在29.6%到40.9%,1.1%到6.6%和0.3%到1.7%之 间,相关的化学值通过LECO CNS-2000的碳、氮、硫分析仪测量得到。本实验中使用KS 方法对样品集进行划分,得到训练样品为106个和测试样品为35个。
2.处理方法
对于上述每一个训练集和测试集,我们分别采用PLSR方法和本发明的方法(以下简称 LOPLSR方法)进行校正。采用K折交叉验证分别为上述数据的PLSR和LOPLSR方法选 取最好的主成分数,首先比较两种方法的训练误差,其次计算两种方法的预测均方根误差, 最后,求得改进的LOPLSR方法比PLSR方法预测改进率。
3.实验结果与讨论
(1)最优潜变量数的选取
在PLSR和LOPLSR方法中,必不可少的是潜变量数的确定,选择合适的潜变量数,有 利于建立一个稳定的准确的预测模型。若潜变量数的取值偏小,则会导致欠拟合现象,即模 型没有达到最佳状态;若潜变量数的取值偏大,则会导致过拟合现象,即模型在达到最佳状 态之后,又往坏的方向发展,这两种情况均不能达到很好的训练效果,由此可见,潜变量数 的选取过程是至关重要的。我们采用10折交叉验证的方式来确定最优潜变量数,最大潜变 量数(即最大主成分数)取为15。
最后确定Grass的碳的PLSR和LOPLSR的最优潜变量数为14和12,氮的PLS和 LOPLSR的最优潜变量数为15和14,硫的PLSR和LOPLSR的最优潜变量数为3和15,选 取过程分别如图13、图17和图21所示。
(2)训练误差比较
用PLS和LOPLSR方法分别处理Grass样品数据并分别进行比较,其目的在于确定用 训练数据建立的模型在潜变量数的范围内是否过拟合,训练误差的比较分别如图14、图18 和图22所示。
结果表明,数据集Grass在训练过程中模型总体呈现下降趋势,说明模型没有出现过拟 合现象。在训练过程中,LOPLSR方法训练数据的得分和载荷与PLSR相比则发生了变化, 具体的载荷变化情况如图15、图19和图23所示。表1展现了LOPLSR各数据的得分和载 荷存在的潜变量数。
表1 LOPLSR载荷随潜变量数的变化过程
(3)预测误差的比较
根据前面数据选择的最优潜变量数,计算了Grass测试数据的PLSR与LOPLSR的预测 均方根误差,具体比较如图16至22所示。结果发现,两种方法的所得的预测值与真实值的 比较点均在直线y=x周围,而且LOPLSR方法比PLS方法所得的预测结果更接近直线 y=x,说明LOPLSR方法可以更准确的预测数据。预测结果对比如图16、图20和图24所 示。PLSR与LOPLSR所得的各种测试数据表2所示。
表2PLSR与LOPLSR预测结果的比较
其中RMSECV表示交叉验证过程中所有潜变量中最小的交叉验证误差;RMSEC表示 模型训练过程中的误差;RMSEP表示模型训练结束后的预测误差。
通过计算PLSR与LOPLSR方法的预测根均方误差(RMSEP)来衡量对模型改进程 度,由上表的PLSR和LOPLSR的预测结果,计算各数据集的LOPLSR方法相对PLSR的 改进程率h的具体值如表3所示。
表3 LOPLSR相比PLSR的改进率
对于不同样品的数据集,LOPLSR的预测精度相比PLSR的都有所提高,其预测精度 最低提高了24.9%,因此本发明的方法相对于传统方法具有较为显著的优势。
机译: 用于确定样品中是否存在可溶性抗体的基于蛋白质L的生物测定方法及其试剂盒
机译: 基于FRET的生物样品中错杂蛋白质种种活力测定方法
机译: 一种基于L蛋白的生物测定方法,以确定样品中是否存在可溶性抗体以及用于该方法的试剂盒