首页> 中国专利> 一种近红外光谱模型的波段选择方法及模型构建方法

一种近红外光谱模型的波段选择方法及模型构建方法

摘要

本发明公开了一种近红外光谱模型的波段选择方法及模型构建方法。其中,近红外光谱模型的波段选择方法,基于吸光度浓度变化率来对校正样品集中所有样品进行波段选择;其过程为:预先设定校正样品集中共有n个样品,每个样品光谱中共有N个变量,对于校正样品集所有样品来说,每个变量则有n个吸光值和n个浓度值;其中,N和n均为大于1的正整数;依次计算每个变量下相邻样品的吸光值差值和浓度差值的比值V,最终在每个变量下得到(n‑1)个比值V,再计算所有比值V的平均值V

著录项

  • 公开/公告号CN109270022A

    专利类型发明专利

  • 公开/公告日2019-01-25

    原文格式PDF

  • 申请/专利权人 山东大学;

    申请/专利号CN201811073952.0

  • 申请日2018-09-14

  • 分类号

  • 代理机构济南圣达知识产权代理有限公司;

  • 代理人张庆骞

  • 地址 250061 山东省济南市历下区经十路17923号

  • 入库时间 2024-02-19 07:11:44

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-10

    授权

    授权

  • 2019-02-26

    实质审查的生效 IPC(主分类):G01N21/359 申请日:20180914

    实质审查的生效

  • 2019-01-25

    公开

    公开

说明书

技术领域

本发明属于近红外光谱建模领域,尤其涉及一种近红外光谱模型的波段选择方法及模型构建方法。

背景技术

近红外光谱(Near Infrared,NIR)是介于可见光(Vis)和中红外(MIR)之间的电磁辐射波,美国材料检测协会(ASTM)将近红外光谱区定义为780-2526nm的区域,是人们在吸收光谱中发现的第一个非可见光区,在制药、医学诊断、食品和农产品的质量控制,天文学以及治疗医学等领域都有应用。

近红外光谱定量分析是一种二级分析方法,其分析过程为:

使用近红外光谱仪器测定样品近红外光谱;采用标准参考方法测定样品中特定成分的浓度或性质参考值;然后将测定的光谱数据和浓度或性质参考值进行预处理,选择合适的化学计量学方法,选择合适的波段,将样品光谱信息和一级参考值进行关联,优化并建立校正模型。

利用校正模型对未知含量或性质参考值的样品基于近红外光谱数据进行预测,以测定未知待测样品的浓度或性质参考值。根据预测结果评价模型的预测能力和有效性。

根据光谱与待测属性值之间的关系,建立模型所使用过的波段选择方法不断更新。常用的波段选择方法包括前向间隔偏最小二乘法(forward interval partial leastsquares,FiPLS)、反向间隔偏最小二乘法(backward interval partial least squares,BiPLS),相关系数法(correlation coefficient,CC)和无信息变量消除算法(uninformative variable elimination,UVE)等。

但是常用的波段选择方法存在以下缺陷:

(1)不能够充分反应物质的化学信息;

(2)不一定同时适用于多种物质多种参数的NIR定量分析;

(3)建模变量的个数较多,模型复杂,而且计算量大,不利于现场快速及过程在线检测。

发明内容

为了解决现有技术的不足,本发明的第一目的是提供一种近红外光谱模型的波段选择方法,其更能够反应物质的化学信息且能够广泛的用于多种物质多种参数的近红外光谱模型定量分析,有效减少用于近红外光谱模型的变量,减轻计算量,同时与部分常规波段选择方法比较,提高了近红外光谱模型的预测能力。

本发明的一种近红外光谱模型的波段选择方法,基于吸光度浓度变化率来对校正样品集中所有样品进行波段选择;其具体过程为:

预先设定校正样品集中共有n个样品,每个样品光谱中共有N个变量,对于校正样品集所有样品来说,每个变量则有n个吸光值和n个浓度值;其中,N和n均为大于1的正整数;

依次计算每个变量下相邻样品的吸光值差值和浓度差值的比值V,最终在每个变量下得到(n-1)个比值V,再计算所有比值V的平均值Vmean

对于校正样品集中样品光谱的N个变量来说,得到N个Vmean值,将N个变量按照其Vmean值进行排序;

按照Vmean值由大变小的顺序依次选择出相应变量,进而选择出近红外光谱模型的波段。

其中,Vmean值越大,则代表吸光值因浓度变化所产生的响应越大。

本发明的第二目的是提供一种近红外光谱模型构建方法。

本发明的一种近红外光谱模型构建方法,包括:

采用上述所述的近红外光谱模型的波段选择方法选择出近红外光谱模型的波段;

从Vmean值最大的变量开始建模,随后按照Vmean值由大变小的顺序,采取依次增加一个变量的方法,开始建立近红外光谱模型。

进一步的,该方法还包括:利用验证样品集中的所有样品来验证近红外光谱模型预测值的准确性。

进一步的,验证样品集和校正样品集中样品均为同一种类的样品。

与现有技术相比,本发明的有益效果是:

(1)本发明同常规波段选择方法比较,提高了近红外光谱模型的预测能力。

(2)本发明丰富了近红外光谱模型的波段选择方法,给近红外光谱模型使用者提供一种可供选择的新方法,同时由于是根据物质的近红外光谱吸光度和浓度的关系建立的波段选择方法,某种程度上,该方法更能够反应物质的化学信息。

(3)本发明能够广泛的用于多种物质多种参数的近红外光谱定量分析,使得该波段选择方法具有广泛的推广性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本发明计算得原料人血浆样品不同波数点下的Vmean

图2为本发明波段选择法建立原料人血浆样品近红外光谱模型结果;

图3为本发明不同波段选择方法针对人血浆样品的近红外光谱模型建模结果;

图4(a)为本发明玉米样品的水分属性在不同波数点下的波段选择方法的Vmean

图4(b)为本发明玉米样品的油脂属性在不同波数点下的波段选择方法的Vmean

图4(c)为本发明玉米样品的蛋白质属性在不同波数点下的波段选择方法的Vmean

图4(d)为本发明玉米样品的淀粉属性在不同波数点下的波段选择方法的Vmean

图5(a)为本发明玉米样品水分属性在不同波数点下的波段选择方法建模预测结果;

图5(b)为本发明玉米样品油脂属性在不同波数点下的波段选择方法建模预测结果;

图5(c)为本发明玉米样品蛋白质属性在不同波数点下的波段选择方法建模预测结果;

图5(d)为本发明玉米样品淀粉属性在不同波数点下的波段选择方法建模预测结果;

图6(a)为本发明玉米样品水分属性在不同波段选择方法的建模预测结果;

图6(b)为本发明玉米样品油脂属性在不同波段选择方法的建模预测结果;

图6(c)为本发明玉米样品蛋白质属性在不同波段选择方法的建模预测结果;

图6(d)为本发明玉米样品淀粉属性在不同波段选择方法的建模预测结果;

图7为本发明汽油样品在不同波数点下的波段选择方法的Vmean

图8为本发明汽油样品在不同波数点下的波段选择方法建模预测结果;

图9为本发明汽油样品在不同波段选择方法的建模预测结果;

图10为本发明的一种近红外光谱模型的波段选择方法流程图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术所介绍的,现有技术中存在(1)不能够充分反应物质的化学信息;(2)不适用同时于多种物质多种参数的近红外光谱模型定量分析;(3)建模变量的个数较多,模型复杂,而且计算量大,不利于现场快速及过程在线检测的不足,为了解决如上的技术问题,本申请提出了一种近红外光谱模型的波段选择方法。

本发明的一种近红外光谱模型的波段选择方法,是基于“吸光度浓度变化率”而进行的波段选择,因此本申请的该方法也定义为:ratio of absorbance to concentration,RATC。

NIR,Near Infrared,近红外光谱。

如图10所示,本发明的一种近红外光谱模型的波段选择方法,基于吸光度浓度变化率来对校正样品集中所有样品进行波段选择;其具体过程为:

步骤1:预先设定校正样品集中共有n个样品,每个样品光谱中共有N个变量,对于校正样品集所有样品来说,每个变量则有n个吸光值和n个浓度值;其中,N和n均为大于1的正整数;

步骤2:依次计算每个变量下相邻样品的吸光值差值和浓度差值的比值V,最终在每个变量下得到(n-1)个比值V,再计算所有比值V的平均值Vmean

其中,Vi=|(Ai-Ai+1)|/(Ci-Ci+1);(1)

Vmean=(V1+V2+V3+V4+......Vn-1)/(n-1)(2)

其中,Ai表示第i个样品的吸光值,Ai+1表示第i+1样品的吸光值,Ci表示第i个样品的浓度值,Ci+1表示第i+1个样品的浓度值。

V1表示第1个样品与其相邻的第2个样品的吸光值差值和浓度差值的比值;

V2表示第2个样品与其相邻的第3个样品的吸光值差值和浓度差值的比值;

V3表示第3个样品与其相邻的第4个样品的吸光值差值和浓度差值的比值;

V4表示第4个样品与其相邻的第5个样品的吸光值差值和浓度差值的比值;

Vn-1表示第n-1个样品与其相邻的第n个样品的吸光值差值和浓度差值的比值。

步骤3:对于校正样品集中样品光谱的N个变量来说,得到N个Vmean值,将N个变量按照其Vmean值进行排序;

步骤4:按照Vmean值由大变小的顺序依次选择出相应变量,进而选择出近红外光谱模型的波段。

其中,Vmean值越大,则代表吸光值因浓度变化所产生的响应越大。

本发明还提供了一种近红外光谱模型构建方法。

本发明的一种近红外光谱模型构建方法,包括:

采用如图10所示的近红外光谱模型的波段选择方法选择出近红外光谱模型的波段;

从Vmean值最大的变量开始建模,随后按照Vmean值由大变小的顺序,采取依次增加一个变量的方法,开始建立近红外光谱模型。

另外,该方法还包括:利用验证样品集中的所有样品来验证近红外光谱模型预测值的准确性。

其中,验证样品集和校正样品集中样品均为同一种类的样品。

例如:校正样品集有20个样品,其浓度值分别为C1,C2,…,C20。近红外光谱模型构建方法如下表所示:

下面提供一个实施例,该实施例的数据包括玉米光谱和汽油光谱。本实施例对数据中玉米的水分,蛋白质,油脂和淀粉以及汽油的辛烷值进行NIR建模,通过将发明提出的波段选择方法与传统波段选择方法进行对比,判断本发明的优良性和实用性。

1.近红外建模样品集划分

方法的验证样品包括三种:原料人血浆样品20份,NIR建模属性为总蛋白含量;玉米样品80份,NIR建模属性为水分,蛋白质,油脂和淀粉;汽油样品60份,NIR建模属性为辛烷值。对三种样品进行校正集和验证集的划分结果如表1,全部满足验证集的参数值范围在校正集之内,同时对于不同样品的不同属性的校正集和验证集来说,其平均值和标准偏差值也比较接近,满足NIR建模校正集和验证集的划分要求。

表1不同样品不同属性的校正集验证集数据统计结果

2.原料人血浆样品NIR建模结果

2.1本发明的波段选择方法

如图1所示,利用Vmean值对原料人血浆样品进行波段选择,所有NIR模型结果见图2,最小的RMSEP(Root-Mean-Square>-1,分析此处的特征吸收峰信息,可能此处反应的是N-H的一级倍频。

表2得到最小RMSEP值(0.495)所涉及的建模变量点

波数(cm-1)波数(cm-1)波数(cm-1)波数(cm-1)波数(cm-1)6363.9406360.0836321.5146294.5156267.5176367.7976387.0826317.6576414.0806425.6516371.6546390.9386313.8006417.9376263.6606356.2266340.7986402.5096290.6586259.8036375.5116336.9416309.9436286.8017208.6086352.3696329.2286406.3666282.9446255.9466348.5126333.0846306.0866421.7946429.5086379.3686398.6526302.2296279.0876252.0896383.2256394.7956410.2236275.2307204.7516344.6556325.3716298.3726271.3746433.365

2.2传统波段选择方法和本发明的波段选择方法对比

由上可得,对于本发明的波段选择方法来说,最小的RMSEP值为0.495。为了考察该方法的预测能力高低,将其同其他变量选择方法(FiPLS,BiPLS,CC,UVE)进行对比,如图3所示。对于FiPLS和BiPLS方法来说,变量间隔设置从100到600(全波数的一半),步长设置为100。对于CC方法来说,样品光谱和含量的相关系数范围为0.0483-0.8121,所以相关系数设置为从0.1到0.8,步长为0.1。对于UVE方法来说,蒙特卡罗模拟次数和样品比率会影响NIR建模,所有将蒙特卡罗模拟数设置为100到500,步长为100,其样品比率设置为从0.5到0.9,步长为0.1,所有的循环运算的RMSEP值都记录下,并找出每种参数设置下的最小RMSEP值。从图3中可明显看出,同其他变量选择方法相比,RATC得到了最小的RMSEP值。综上所述,对于原料人血浆样品的总蛋白定量来说,RATC方法是一种有效的变量选择方法。

3.玉米样品NIR建模结果

3.1本发明的波段选择方法

利用本发明的波段选择方法处理玉米样品的四种属性,不同属性下的Vmean值如图4(a)-图4(d)所示,基本较高的Vmean值集中在2000-2500nm,这显示此波段可能包含丰富的数据信息。随后根据Vmean值依次选择波段进行建模,基于本发明的波段选择方法的建模结果如图5(a)-图5(d)所示。对于玉米的水分NIR模型来说,最小的RMSEP值为0.009,涉及变量454个;对于玉米的油脂NIR模型来说,最小的RMSEP值为0.043,涉及变量135个;对于玉米的蛋白质NIR模型来说,最小的RMSEP值为0.076,涉及变量298个;对于玉米的淀粉NIR模型来说,最小的RMSEP值为0.128,涉及变量664个。

3.2传统波段选择方法和RATC方法对比

将本发明的波段选择方法与传统变量选择方法进行对比,结果见图6(a)-图6(d)。对于FiPLS和BiPLS方法来说,变量间隔设置从100到350(全波数的一半),步长设置为50。对于CC方法来说,四种属性将分别设置运算参数。玉米水分的样品光谱和含量的相关系数范围为0.400-0.660,所以相关系数设置为从0.40到0.65,步长为0.01;玉米油脂的样品光谱和含量的相关系数范围为0.0889-0.2092,所以相关系数设置为从0.08到0.20,步长为0.01;玉米蛋白质的样品光谱和含量的相关系数范围为0.1772-0.2782,所以相关系数设置为从0.17到0.27,步长为0.01;玉米淀粉的样品光谱和含量的相关系数范围为0.1133-0.2028,所以相关系数设置为从0.11到0.20,步长为0.01;对于UVE方法来说,蒙特卡罗模拟数设置为100到500,步长为100,其样品比率设置为从0.5到0.9,步长为0.1,所有的循环运算的RMSEP值都记录下,并找出每种参数设置下的最小RMSEP值。

根据实验结果可得,除了玉米油脂建模中,基于本发明的波段选择的建模结果与CC方法的结果相同。图6的其他结果显示,同其他变量选择方法相比,RATC方法建立的模型得到了最小的RMSEP值。综上所述,对于玉米样品的水分,油脂,蛋白质和淀粉定量来说,本发明的波段选择方法是一种有效的变量选择方法。4.汽油样品NIR建模结果

4.1本发明的波段选择方法

利用本发明的波段选择方法建立汽油辛烷值的NIR模型,所有的Vmean值如图7所示,较高的Vmean值大部分集中在1600-1700nm,根据Vmean值选择变量的建模结果如图8所示,最小的RMSEP值为0.166,涉及建模变量233个。

4.2传统波段选择方法和本发明的波段选择方法对比

将本发明的波段选择与传统变量选择方法进行对比,结果见图9。对于FiPLS和BiPLS方法来说,变量间隔设置为100和200(全波数的一半)。对于CC方法来说,汽油辛烷值的样品光谱和含量的相关系数范围为-0.8914-0.4890,所以相关系数设置为从0到0.89,步长为0.01。对于UVE方法来说,蒙特卡罗模拟数设置为100到500,步长为100,其样品比率设置为从0.5到0.9,步长为0.1,所有的循环运算的RMSEP值都记录下,并找出每种参数设置下的最小RMSEP值。

根据实验结果可得,除了CC方法的RMSEP值比本发明的波段选择方法的低(仅仅低13.86%),图9的其他结果显示,同其他变量选择方法相比,基于本发明的波段选择方法而建立的模型得到了最小的RMSEP值。综上所述,对于汽油辛烷值的NIR建模定量来说,本发明的波段选择方法是一种有效的变量选择方法。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号