首页> 中国专利> 一种近红外光谱特征谱区选择方法

一种近红外光谱特征谱区选择方法

摘要

本发明提供一种近红外光谱特征谱区选择方法,本发明将蒙特卡罗概率选择结合蚁群优化算法应用到近红外光谱的特征谱区选择问题上,设置动态区间范围,初始化算法参数,以获取对象的各个光谱区间作为等效搜索点,以测试对象的品质或特性作为标准参考,建立偏最小二乘分析模型,以该模型预测均方根误差重新加权计算来更新信息素向量,通过迭代计算,搜索获取最优的近红外光谱特征谱区,多次循环计算,自动判断得到最佳的近红外光谱特征谱区。本发明结合蒙特卡罗概率选择的全局性和蚁群算法正反馈的优点,有效避免建模过程依靠经验选择的不足和全部选择的数据冗余,快速获得全局最优特征谱区,提高建模精度和稳定性。

著录项

  • 公开/公告号CN103308463A

    专利类型发明专利

  • 公开/公告日2013-09-18

    原文格式PDF

  • 申请/专利权人 中国农业大学;

    申请/专利号CN201310269647.X

  • 申请日2013-06-28

  • 分类号G01N21/25(20060101);G01N21/35(20060101);G06F19/00(20110101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人王莹

  • 地址 100193 北京市海淀区圆明园西路2号

  • 入库时间 2024-02-19 20:39:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-06-03

    授权

    授权

  • 2013-10-23

    实质审查的生效 IPC(主分类):G01N21/25 申请日:20130628

    实质审查的生效

  • 2013-09-18

    公开

    公开

说明书

技术领域

本发明涉及近红外光谱分析技术领域,尤其涉及一种基于蒙特卡 罗-蚁群优化算法的近红外光谱特征谱区选择方法。

背景技术

随着近红外光谱技术和化学计量方法的发展,近红外光谱技术已 经在国民经济发展的各个领域得到应用。但由于仪器所采集的数据除 样品的自身信息外,还包含了其它无关信息和噪音,如电噪音、样品 背景等,这些信息很难在预处理中全部消除;其次有些区域样品的信 息很弱,与样品的组成或性质间缺乏相关关系。如果将这些数据都参 与建模,不但计算量大、模型复杂,而且精度也受到影响。通过特定 方法对自变量进行优选,一方面可以简化模型,更主要的是通过剔除 不相关或非线性变量,可以得到预测能力强、稳健性好的校正模型。

偏最小二乘法(PLS)已成为近红外光谱建模的经典方法,传统观 点认为PLS具有较强的抗干扰能力,可全波长参与多元校正模型的建 立。随着对PLS方法的深入研究和应用,通过特定方法筛选特征波长 或波长区间有可能得到更好的定量校正模型。在近红外光谱的特征变 量选择方面做了大量研究工作,主要集中在特征波段的选择、特征波 长的优选及波段和波长选择相结合的筛选方法。蚁群优化算法是人工 智能或群体智能的新发展,具有分布计算、信息正反馈和启发式搜索 的特征,已较好的解决旅行商、通讯、网络路由和定量构效关系等组 合优化问题。

发明内容

(一)要解决的技术问题

本发明的目的是提供一种蒙特卡罗-蚁群优化算法的近红外光谱特 征谱区选择方法,将蒙特卡罗选择的随机性结合蚁群全局搜索及信息 反馈机制进行近红外光谱特征谱区选择,避免因全谱建模或人工选择 谱区的主观性,有利于提高近红外光谱预测模型的鲁棒性和适用性。

(二)技术方案

为解决上述问题,本发明提供一种近红外光谱特征谱区选择方法, 包括以下步骤:S1、将预处理后的近红外光谱随机划分成校正集和验 证集,并将预处理后的近红外光谱按照设置的动态区间范围划分光谱 子区间;S2、初始化信息素向量,采用蒙特卡罗-轮盘转法赋值于待选 变量的信息素权值,从变量集中选择信息素权值高的变量,直到变量 数达到最大变量数,以测试样本的可溶性固形物含量的实测值为参考 标准,用被选变量建立校正集样本的偏最小二乘分析模型,输出均方 根误差;S3、未达到最大迭代次数时,以最小输出均方根误差的变换 函数更新信息素向量,再次进行变量选择,以前后两阶段的被选变量 一起建立偏最小二乘模型;达到最大迭代次数后,所有被选择的变量 集合经概率阈值分选,将高概率变量作为偏最小二乘法的输入进行建 模,各变量协同作用,输出该次循环的最优变量组合和均方根误差; S4、达到最大循环次数后,对各次循环的建模结果进行比较,选择最 优的变量组合;S5、根据先前设置的动态区间范围,再以新的区间划 分进行重新进行上述运算;动态区间范围依次运行完成后,优选最佳 的建模子区间或子区间组合,近红外光谱对应某一组分或性质的特征 谱区。

优选地,采用蚁群优化算法选择特征谱区,并且其具体步骤如下: S51、近红外光谱子区间的信息素向量为τ(n-1)时,已选择变量组v0;S52、 达到最大变量数时,建立偏最小二乘模型,以模型的均方根误差计算 目标函数F;S53、未达到最大迭代次数时,以目标函数F和信息素衰 减系数ρ来更新信息素向量τ(n),再次进行蒙特卡罗概率选择,并重复 步骤S51和S52;S54、达到设定迭代次数后,开始循环运算,重复步 骤S51~S53;S55、达到循环次数时,依次按动态区间值,重复步骤 S51~S54;S56、动态区间值循环运算后,按照误差最小原则,比较各 动态区间划分的所得模型的最小均方根误差,获取近红外光谱最优特 征谱区或特征谱区组合。

优选地,所述目标函数设置为,其中, ,yi为样本组分或性质的实测值,为预测值,显 著性因子Q为常数,用于调整目标函数的收敛效度。

(三)有益效果

本发明采用上述技术方案的有益效果是:蚁群优化算法的特征谱 区选择采用分布式计算、正反馈机制和贪婪式搜索的方式,具有很强 的全局搜索最优谱区或其组合的能力,解决全谱建模或主观选择波长 建模所导致的模型精度低适用性差的问题;采用最小均方根误差作为 目标函数,并引入常数显著性因子,可以有效调整目标函数的收敛速 度,适度调整信息素更新;蚁群优化算法选择近红外光谱特征谱区建 立的分析模型简单,计算效率高,模型的鲁棒性强、适用性广。

附图说明

图1是蒙特卡罗-蚁群优化算法流程图;

图2是蒙特卡罗-蚁群优化算法选择的近红外光谱特征谱区图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

参考图1,本发明提供了一种蒙特卡罗-蚁群优化算法的近红外光 谱特征波长选择方法,包括下述步骤:先对近红外光谱进行预处理, 用于消除噪声影响,并按照约2:1的比例将所有样本随机划分成校正集 和验证集;预处理后的近红外光谱按照设置的动态区间范围划分光谱 子区间,每个光谱子区间作为蚁群优化算法的等效待选变量;采用蒙 特卡罗-轮盘转法赋值于待选变量的信息素权值,从变量集中选择信息 素权值高的变量,直到变量数达到最大变量数,用被选变量建立偏最 小二乘分析模型,输出均方根误差;未达到最大迭代次数时,以最小 输出均方根误差的变换函数更新信息素向量,再次进行变量选择,以 前后两阶段的被选变量一起建立偏最小二乘模型;达到最大迭代次数 后,所有被选择的变量集合经概率阈值分选,将高概率变量作为偏最 小二乘法的输入进行建模,各变量协同作用,输出该次循环的最优变 量组合和均方根误差;达到最大循环次数后,对各次循环的建模结果 进行比较,选择最优的变量组合;根据先前设置的动态区间范围,再 次以新的区间划分进行重新进行上述运算;动态区间范围依次运行完 成后,优选最佳的建模子区间或子区间组合,近红外光谱对应某一组 分或性质的特征谱区。

本发明首先对近红外光谱进行预处理。近红外光谱采集时,有许 多高频随机噪声、基线漂移、颗粒大小和光散射等噪声信息夹入,这 将影响近红外光谱与可溶性固形物含量间的相关关系,并直接影响所 建立模型的可靠性和稳定性。为消除噪声影响,常采用标准正态变量 变换、S-G平滑、均一化、多元散射校正、极小/极大归一、一阶导数、 二阶导数等中的一种或两种连用对近红外光谱进行预处理。一般要求 总样本数大于60个,按照约2:1的比例将所有样本随机划分成校正集 和验证集。

蚁群优化算法是一种迭代算法,算法实现流程如图1所示。预处 理后的近红外光谱按照设置的动态区间范围划分光谱子区间,每个光 谱子区间作为蚁群优化算法的等效待选变量,每个变量初始信息素向 量值均置为1,即每个变量具有相同的被选择概率;启动算法程序,采 用蒙特卡罗-轮盘转法赋值于待选变量的信息素权值,从变量集中选择 信息素权值高的变量,直到变量数达到最大变量数,以测试样本的可 溶性固形物含量的实测值为参考标准,用被选变量建立校正集样本的 偏最小二乘分析模型,输出均方根误差;未达到最大迭代次数时,以 最小输出均方根误差的变换函数更新信息素向量,再次进行变量选择, 以前后两阶段的被选变量一起建立偏最小二乘模型;达到最大迭代次 数后,所有被选择的变量集合经概率阈值分选,将高概率变量作为偏 最小二乘法的输入进行建模,各变量协同作用,输出该次循环的最优 变量组合和均方根误差;达到最大循环次数后,对各次循环的建模结 果进行比较,选择最优的变量组合;根据先前设置的动态区间范围, 再次以新的区间划分进行重新进行上述运算;动态区间范围依次运行 完成后,优选最佳的建模子区间或子区间组合,近红外光谱对应某一 组分或性质的特征谱区。

蚁群优化算法在寻求最优解的进化过程中包括适应阶段和协作阶 段。在适应阶段,各候选解根据积累的信息不断调整自身组合;在协 作阶段,候选解之间通过信息交流,以产生性能更好的解。蚁群优化 算法的实现过程需先设置相关参数:

(1)动态区间范围设置方式为两种,即[m,n]和(q1,q2,q3……), [m,n]为光谱区间数以m个子区间开始,算法执行一次子区间数增加1, 直到增加至n,其中m和n均为整数,且m小于n;q1,q2,q3…… 为指定的整数,特别适用于感兴趣子区间的建模比较;近红外光谱所 有变量X按区间数N等分,当不能等分时,记X整除N的余数为P, 前P个子区间的变量数为X/N+1,后面子区间的变量数为X/N。

(2)信息素向量τ,初始信息素向量值均置为1,即每个变量具 有相同的被选择概率,然后利用蒙特卡罗-轮盘转法赋值,经过n个时 刻,蚂蚁完成一次循环后,各变量上信息素量将做出更新,被选中的 变量信息素以τ(n)=(1-ρ)τ(n-1)+ρF变化,未被选中的变量信息素量因挥 发而减少,其中ρ为信息素衰减系数,F为目标函数。变换变量对应的 信息素向量值,更新变量被选择的概率

(3)信息素衰减系数ρ直接影响着算法收敛的速度,当ρ取值较 大时,挥发快,信息素积累少,故不能很好地在蚂蚁之间传递信息; 当ρ取值较小时,则挥发很少,之前积累的信息所占比例较大,信息 素不易更新,也不能全面地传递信息,效果也不好。

(4)目标函数F,建立一个好的目标函数,可加快收敛速度,提 高模型精度。这里以均方根误差RMSE作为评价指标,目标函数为 F=Q/(1+RMSEmin)(其中,RMSE=1nΣi=1n(yi-y^i)2其中yi为样本可溶 性固形物的实测值,为预测值。均方根误差的值越小,对应校正模型 的预测能力越好;并设置显著性因子Q,Q为常数,用于调整目标函 数的收敛效度。

(5)最大变量数表示一次蚁群优化迭代选择的变量数达到设定值 才进行偏最小二乘建模。

(6)最大迭代次数表示蚁群优化过程信息素向量更新的次数。

(7)最大循环次数表示蚁群优化算法执行的次数。

采用蚁群优化算法选择特征谱区的具体步骤如下:

(1)近红外光谱子区间的信息素向量为τ(n-1)时,已选择变量组v0;

(2)达到最大变量数时,建立偏最小二乘模型,以模型的均方根 误差计算目标函数F;

(3)未达到最大迭代次数时,目标函数F和信息素衰减系数ρ来 更新信息素向量τ(n),再次进行蒙特卡罗概率选择,并重复步骤(1)和 (2);

(4)达到设定迭代次数后,开始循环运算,重复步骤(1)~(3);

(5)达到循环次数时,依次按动态区间值,重复步骤(1)~(4);

(6)动态区间值循环运算后,按照误差最小原则,比较各动态区 间划分的所得模型的最小均方根误差,获取近红外光谱最优特征谱区 或特征谱区组合。

以苹果近红外光谱全部的5291个波数点作为选择对象。蚁群优化 算法的控制参数经多次试验验证设定为:动态区间范围[20,35],初始 群体大小为80,最大迭代次数为50次,最大循环次数20次,变量选 择概率阈值为0.5,显著性因子Q为0.01。信息素衰减系数ρ取为0.65。 图2所示为蚁群优化算法运行的特征谱区选择结果,被选择的两个近 红外光谱特征谱区为6383.2-6753.5cm-1和5272.4-5642.7cm-1,可解释 为这两个谱区的光谱响应与可溶性固形物组分相关程度较高。被选的 谱区均不在水分吸收峰位置,表明蚁群优化算法的选择结果具有较强 的抗干扰能力。蚁群优化算法可以有效选择近红外光谱特征谱区,提 高模型的鲁棒性和适用性。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领 域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以 做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号