首页> 中国专利> 基于近红外光谱的校正模型建模方法

基于近红外光谱的校正模型建模方法

摘要

本发明提供一种基于近红外光谱的校正模型建模方法,包括:步骤1,根据近红外光谱数据的预处理结果,获取全谱权重值;步骤2,以全谱波长的权重值为阀值,将全谱滤长划分为相关波长集、无关波长集和噪声波长集;步骤3,将浓度数据、相关波长集和无关波长集作为RBF神经网络的输入,同时将RBF神经网络的隐节点数设置为训练集的样本个数,训练RBF神经网络;步骤4,利用RBF神经网络的输出值与浓度数据通过偏最小二乘算法得出主成分个数;步骤5,根据训练集中的各样本的贡献值和贡献率的大小确定RBF神经网络的隐含层节点。本发明降低了校正模型的复杂度、校正模型的复杂度,有效提高了校正模型的精确度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-09-21

    授权

    授权

  • 2014-10-08

    实质审查的生效 IPC(主分类):G01N21/359 申请日:20140618

    实质审查的生效

  • 2014-09-03

    公开

    公开

说明书

技术领域

本发明属于分析化学领域的无损分析技术,特指一种基于近红外光谱的校正 模型建模方法。

背景技术

近红外光谱分析技术是分析化学领域迅猛发展的高新分析技术,其具有无破 坏、无污染、分析重现性好、成本低等优点,广泛应用于石油化工、农业、食 品等行业。近红外光谱分析技术主要分为定性和定量分析,定量分析的基础是 利用近红外光谱获取的信息,通过建立校正模型,实现对物质各组分浓度的分 析。但是,近红外区域(780-2526nm)主要体现含氢基团(-OH、-NH、-CH)的合频 和各级倍频的吸收,该区间波段信息强度弱、谱峰重叠,导致校正模型的建立 十分困难。

目前,在实际应用中校正模型创建方法主要采用线性方法多元线性回归算 法、主成分回归算法和偏最小二乘回归算法。但是在实际中,光谱信息与浓度 之间具有一定的非线性,特别是浓度范围较大时非线性更加明显。另外,由于 物质的各成分相互作用、光谱仪的噪声和基线漂移等原因,也会引起非线性, 这些导致线性校正模型方法精度不高。

针对该问题,专利“一种红花提取液测定方法(专利号:201310269615.X)” 采用最小二乘支持向量创建校正模型,但是在高维的近红外光谱数据下,该算 法需要上百个样本才能建立满足实际应用的校正模型,这在一些实际工程应用 中很不现实。

专利“一种近红外光谱的多模型建模方法(专利号:201310537968.3)提出 了集成建模思路,将训练样本划分为那个子集,建立各个子集的校正模型,得 到各子集校正模型的预测结果,将各子集预测结果利用权重值得到最终预测结 果。但是该方法训练次数多,计算复杂。

发明内容

为解决上述技术问题,本发明提供了一种预测精确度高、模型稳健性好、所 需样本少的基于近红外光谱的校正模型建模方法。

作为本发明的一个方面,提供了一种基于近红外光谱的校正模型建模方法, 包括:步骤1,根据近红外光谱数据的预处理结果,获取全谱权重值;步骤2, 以全谱波长的权重值为阀值,将全谱滤长划分为相关波长集、无关波长集和噪 声波长集;步骤3,将浓度数据、相关波长集和无关波长集作为RBF神经网络 的输入,同时将RBF神经网络的隐节点数设置为训练集的样本个数,训练RBF 神经网络;步骤4,利用RBF神经网络的输出值与浓度数据通过偏最小二乘算 法得出主成分个数;步骤5,根据训练集中的各样本的贡献值和贡献率的大小确 定RBF神经网络的隐含层节点;步骤6,将主成分个数作为新的RBF神经网络 的隐含层的节点个数,并将步骤5中的隐含层节点作为新的RBF神经网络的陷 节点,将相关波数集、无关波数集作为新的RBF神经网络的输入,训练新的RBF 神经网络从而得到校正模型。

进一步地,步骤1之前还包括以下步骤:根据光谱样本之间的距离及浓度 样本之间的距离,对光谱数据进行划分,从而得到校正集,其中,校正集用于 建立校正模型。

进一步地,步骤2还包括:将校正集等分为多个子区间,分别计算每个子 区间的权重值;根据全谱权重值和每个子区间的权重值,利用下式将各子区间 划分到相关波长集、无关波长集和噪声波长集中:

S1=S1Ii,Wi>αWS2=S2Ii,αWWiβWS3=S3Ii,Wi<βW

其中,S1为相关波数集,S2为无关波数集,S3为噪声波数集,α为阈值浮 动上限比例,β为阈值浮动下限比例,其中0<β<1<α<2,W为全谱权重值, Wi为子区间的权重值。

进一步地,贡献值通过下式确定:

aj=Σi=1mαj,i,j=1,2,...,r

其中,aj表示贡献值;αj,i表示j个主成分的第i个样本系数;m表示自变量 个数;r表示提取的主成分个数。

进一步地,贡献率由下式计算得到:

qi=Σj=1r||αj,i||aj,i=1,2,···,m

其中,qj表示第j个样本贡献率;αj,i表示j个主成分的第i个样本系数;m 表示自变量个数;r表示提取的主成分个数;aj为第j个样本的贡献值。

进一步地,步骤4包括:将RBF神经网络的输出值构成多维欧式空间,将 多维欧式空间与浓度数据通过偏最小二乘算法得出主成分个数。

本发明通过波数分类思想,将全谱段波长分为三类,剔除了噪声波数点, 降低了校正模型的复杂度;通过主成分确定隐含层隐节点个数,该方法确定的 隐节点,降低了校正模型的复杂度;通过贡献率选择样本作为隐含层节点,该 方法充分利用了光谱数据和浓度之间的关系确定隐节点,有效提高了校正模型 的精确度。

附图说明

图1是68组汽油样本光谱数据;

图2是预处理后的光谱数据;

图3是不同阈值上限比例对定量分析结果的影响;

图4是不同阈值下限比例对定量分析结果的影响;

图5是不同重叠系数λ对定量分析结果的影响;

图6是PLS-RBF算法预测值与实际值对比。

具体实施方式

本发明利用权重值方法,将全谱分成三类:相关波数点集、无关波数点集、 噪声波数点集,剔除噪声波数点;根据偏最小二乘算法得到的主成分个数,确 定了径向基神经网络的隐含层节点个数;根据各样本的贡献值、贡献率确定了 径向基神经网络的隐含层节点;将相关波数集、无关波数集作为新的径向基神 经网络的输入得到训练模型。该方法所建校正模型具有预测精确度高、模型稳 健性好,所需样本少等优点。

具体地说,在一个实施例中,本发明提供了一种基于近红外光谱的校正模 型建模方法,可用于对石油品质或农产品进行分析,包括以下步骤:

步骤1,根据近红外光谱数据的预处理结果,获取全谱权重值;

步骤2,以所述全谱波长的权重值为阀值,将所述全谱滤长划分为相关波 长集、无关波长集和噪声波长集;

步骤3,将浓度数据、所述相关波长集和所述无关波长集作为RBF神经网 络的输入,同时将所述RBF神经网络的隐节点数设置为训练集的样本个数,训 练所述RBF神经网络;

步骤4,利用所述RBF神经网络的输出值与所述浓度数据通过偏最小二乘 算法得出主成分个数;

步骤5,根据所述训练集中的各样本的贡献值和贡献率的大小确定所述 RBF神经网络的隐含层节点;

步骤6,将所述主成分个数作为新的RBF神经网络的隐含层的节点个数, 并将步骤5中的隐含层节点作为所述新的RBF神经网络的陷节点,将所述相关 波数集、无关波数集作为所述新的RBF神经网络的输入,训练所述新的RBF神 经网络从而得到校正模型。

本发明通过波数分类思想,将全谱段波长分为三类,剔除了噪声波数点,降 低了校正模型的复杂度;通过主成分确定隐含层隐节点个数,该方法确定的隐 节点,降低了校正模型的复杂度;通过贡献率选择样本作为隐含层节点,该方 法充分利用了光谱数据和浓度之间的关系确定隐节点,有效提高了校正模型的 精确度。

在一个优选的实施例中,本发明可先对近红外光谱进行预处理,以消除数据 采集过程因仪器本身的信号漂移、环境变化引起的噪声。例如,可使用以下预 处理方法,对光谱进行预处理:SNV(标准正交变换)、OSC(多元散射校正)、小 波变换等。

例如,设X(n×m)为校正集光谱矩阵,h为波长变量个数,Num为子区间个数, W采用模型的预测标准偏差(SEP)的倒数,S1为相关波数点集,S2为无关波数点 集,S3为噪声波数点集,qi为贡献率,可按以下步骤实施上述方法:

1.计算全谱X的权重值W。

2.把校正集谱阵X等分为Num个子区间{I1,I2,…,INum},分别建立校正模型, 计算各子区间的权重值

3.根据全谱权重值、各子区间权重值、α和β,将各子区间划分到S1,S2,S3中,S4=S1∩S2,m1=|S4|

4.将RBF神经网络的隐含层的节点个数设为训练样本个数,将S4作为RBF 神经网络的输入,得到RBF神经网络的输出矩阵φ,并令输出矩阵φ的N 个列向量为它们构成N维欧式空间

5.将与浓度性质Y进行PLS运算,提取r个主成分。

6.计算各样本贡献率qi,选取前r个最大贡献率样本X1,X2,…,Xr,将 X1,X2,…,Xr设为RBF新的隐节点。

7.重新训练新的RBF神经网络得到校正模型。

优选地,所述步骤1之前还包括以下步骤:根据光谱样本之间的距离及浓 度样本之间的距离,对光谱数据进行划分,从而得到校正集,其中,所述校正 集用于建立所述校正模型。例如,可采用基于欧式距离的K-S算法、考虑性质 变量的SPXY算法等进行划分。

优选地,所述步骤2还包括:将所述校正集等分为多个子区间,分别计算 每个所述子区间的权重值;根据所述全谱权重值和所述每个子区间的权重值, 利用下式将所述各子区间划分到所述相关波长集、无关波长集和噪声波长集中:

S1=S1Ii,Wi>αWS2=S2Ii,αWWiβWS3=S3Ii,Wi<βW

其中,S1为相关波数集,S2为无关波数集,S3为噪声波数集,α为阈值浮 动上限比例,β为阈值浮动下限比例,其中0<β<1<α<2,W为全谱权重值, Wi为子区间的权重值。

优选地,所述贡献值通过下式确定:

aj=Σi=1mαj,i,j=1,2,...,r

其中,aj表示贡献值;αj,i表示j个主成分的第i个样本系数;m表示自变 量个数;r表示提取的主成分个数。

优选地,所述贡献率由下式计算得到:

qi=Σj=1r||αj,i||aj,i=1,2,···,m

其中,qj表示贡献率;αj,i表示j个主成分的第i个样本系数;m表示自变 量个数;r表示提取的主成分个数;aj表示第j个样本的贡献值。

优选地,所述步骤4包括:将所述RBF神经网络的输出值构成多维欧式空 间,将所述多维欧式空间与所述浓度数据通过偏最小二乘算法得出主成分个数。

下面,以一个具体的例子,对本发明进行示例性说明。

第一,对近红外光谱进行预处理,包括对校正集和验证集样本的划分。

例如,可根据下述距离定量公式(1)进行划分,以综合考虑光谱样本之间 的距离及浓度样本之间的距离。根据距离定量公式(1),选择代表性强的样本 建立模型,扩大模型适用范围,便于模型的更新和维护。

dxy(i,j)=dx(i,j)maxi,j(1,z)[dx(i,j)]+dy(i,j)maxi,j(1,z)[dy(i,j)],i,j[1,z]---(1)

其中,dx表示光谱数据欧式距离;dy表示浓度数据欧式距离;Z表示样本个 数

第二:计算预处理后的校正集的全谱权重值W,将其作为阈值,其计算如 公式(2)所示。

W=1Σi=1n(yi,actual-yi,predicted)2m-1---(2)

其中,yi,actual表示实际值;yi,predicted表示预测值;m表示样本个数。

通过上述公式,可对每个波数点Ii建立校正模型,得出每个波数点的权重 值Wi。

进一步地,根据阈值的大小,可将全部波数点划分为以下三个集合:相关 波数集S1、无关波数集S2和噪声波数集S3。设α为阈值浮动上限比例,β为阈 值浮动下限比例,其中0<β<1<α<2,可通过公式(3)进行划分。

S1=S1Ii,Wi>αWS2=S2Ii,αWWiβWS3=S3Ii,Wi<βW---(3)

第三,将RBF神经网络的隐含层的节点个数设为训练样本个数,每个训练 样本表示一个隐节点;将相关波数集和无关波数集作为输入计算隐节点的输出 矩阵φ,并令φ的N个列向量为他们构成N维欧式空间

第四,将与浓度性质Y进行PLS运算,提取r个主成分。

第五,其中隐含层节点通过贡献值、贡献率来确定,其定义如下:

定义1:贡献值aj表示第j个主成分中自变量的系数绝对值之和。

aj=Σi=1mαj,i,j=1,2,...,r---(4)

定义2:贡献率qi表示第i个自变量的贡献值在所有主成分的贡献值中所占 的比例之和。

qi=Σj=1r||αj,i||aj,i=1,2,···,m---(5)

其中,m表示自变量个数,r表示提取了主成分个数,α表示自变量系数。

计算每个自变量的贡献率qi,将qi按从大到小排列,取出前r个最大qr样本, 并保留其作为相应的隐节点。

第六,将r设为新的RBF神经网络的隐含层的节点个数,并将保留的隐节 点作为新的隐节点,重新训练RBF神经网络得到校正模型。

实验例:

汽油辛烷值采用基于GB/T503-1955的马达法测量。将汽油样本装入石英比 色皿中,以空气做本底,按照以下的光谱扫描条件:光谱区间800~2600nm,分 辨率为8cm-1,样品和本底的扫描次数为40次。每个样本重复测量5次,取平 均值作为该样本最终的光谱数据,由于仪器光谱区间前段跟后端数据毛刺太多, 我们截取了1100~1680nm区间的光谱数据,最后采集的68组汽油光谱数据(如 图1所示),其辛烷值如表1所示。采用OSC对光谱数据进行预处理,处理后 的数据如图2所示;采用SPXY算法将数据集划分为:48个训练样本、20个验 证样本。

表1  68组汽油样本辛烷值

计算出全谱的权重值即阈值为0.8;计算各个波数点的权重值,其范围在 0.57~1.25之间。

表2为波数点在各个权重值范围之内的分布,从中可以看出全谱波长大部 分为噪声波长,相关波长相对较少。

表2  不同权重值波长个数分布表

权重值范围 0.5~0.6 0.6~0.7 0.7~0.8 0.8~0.9 0.9~1 1.0~1.2 1.2~1.3 波长个数 25 124 140 70 30 0 5

在采用WSPA算法进行特征波长选择过程过,会使用到阈值浮动上限比例 α,阈值浮动下限比例β,因此我们首先通过实验一确定α、β的值。

实验一确定α、β的值

在基于权重值的波长变量选择算法(WSPA)中计算阈值浮动上限比例α时, 根据权重值分布范围、阈值,将α分别设为1.02,1.04,1.06,…,1.18,1.2分布进行 试验,模型全部采用偏最小二乘算法(PLS)建立,计算模型预测标准偏差(SEP), 记录相应的预测标准偏差。计算阈值浮动下限比例β时,根据权重值分布范围、 阈值,将β分别设为0.98,0.96,…0.74,0.72分布进行试验,模型全部采用偏最小 二乘算法(PLS)建立,计算模型预测标准偏差(SEP),记录相应的预测标准偏 差。

我们可以看到图3中不同阈值上限比例α对应不同的定量分析效果,当 α=1.1时,即将权重值大于阈值1.1倍的波长拿来建立模型,其模型预测精确度 显著增加,即权重值大于0.864的波长为相关波长,因此将阈值上限比例α设定 为1.08。图4中不同阈值下限比例β对应不同的定量分析效果,当β=0.9时,将 权重值小于阈值0.9倍的波长拿来建立模型,使得预测标准偏差(SEP)值迅速 上升,即其模型精度下降,即权重值小于0.736的波长为噪声波长,因此将阈值 下限比例β设定为0.92。

表3波长分类结果

通过实验一将所有波数分为三类:相关波长集、无关波波长集和噪声波长 集,其分类结果如表3所示。

实验二确定重叠系数λ的值

在结合RBF的偏最小二乘算法(RBF-PLS)中建立非线性校正模型时,将 重叠系数λ分别设为1,2,3,…68,69,80分别进行试验,计算预测相对误差(PRE)。 为了显示清楚,图5只给出了λ从1到50间隔为2的取值实验结果。

我们可以看到图5中不同重叠系数λ对应不同的定量分析结果,λ值在7时 最低。因此,我们将λ设定为7,使得定量分析效果最佳。

实验三RBF-PLS算法定量分析结果

根据确定的λ值,将第一次RBF训练的输出与浓度数据通过PLS建立模型, 得到主成分个数r=8,即隐节点数为8,选取贡献率最大的8个样本即编号 (2,10,5,37,16,30,36,6)作为隐节点,从新训练RBF,得到最终的校正模型。将 验证集光谱数据输入校正模型,得出预测值,预测值与实际值的对比如图6所 示,该模型SEP=0.46,R=0.99。在图6中,曲线1表示实际值,而曲线2表 示预测值。

本发明公开了一种的基于近红外光谱的校正模型创建方法,包过如下步骤: 根据预处理后的光谱数据,计算全谱波长和每个波长的权重值;以全谱波长权 重值为阈值,将全谱波长分为三个部分:相关波长集、无关波长集和噪声波长 集;将相关波长集、无关波长集和浓度数据作为RBF神经网络输入,将RBF神 经网络的隐节点数设置为训练集样本个数,训练RBF神经网络;利用RBF神经 网络的输出值与浓度建立通过偏最小二乘算法建立校正模型;通过模型得出主 成分个数,以主成分个数为RBF神经网络的隐含层节点个数,对比各样本贡献 率大小选取样本作为隐节点;再次把相关波长集、无关波长集和浓度数据输入 从新确定隐节点的RBF神经网络中,最后得到校正模型。本发明建立的校正模 型精确度高、稳健性好,具有很强的泛化能力。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号