首页> 中国专利> 一种基于神经网络与近红外光谱的梨无损检测方法

一种基于神经网络与近红外光谱的梨无损检测方法

摘要

本发明公开了一种基于神经网络与近红外光谱的梨无损检测方法,首先在实际的分选线运作过程中,获取对于每一个样本而言最具有代表性的近红外光谱,构建初始数据集;并进行预处理;然后使用区间选择、波长选择组合的方式对整个光谱波长区间进行特征选择,并根据选择结果构建特征数据集;按照K折检验法多次划分,得到多组训练、测试数据集,训练、测试数据集的输入特征为特征数据集中处理后的光谱数据,标签为糖度与是否含有霉心病;最后构建两个神经网络模型,用于预测糖度与是否患有霉心病的模型用于后续实际检测,本发明以较高的准确度检测糖度与霉心病,为分选线的品质筛选提供强有力的依据,为农业产品的销售提供极大的便利。

著录项

  • 公开/公告号CN112669915A

    专利类型发明专利

  • 公开/公告日2021-04-16

    原文格式PDF

  • 申请/专利权人 西安理工大学;

    申请/专利号CN202011230888.X

  • 申请日2020-11-06

  • 分类号G16C20/70(20190101);G16C20/20(20190101);G06N3/12(20060101);G06N3/04(20060101);G06N3/08(20060101);G01N21/359(20140101);

  • 代理机构61214 西安弘理专利事务所;

  • 代理人韩玙

  • 地址 710048 陕西省西安市碑林区金花南路5号

  • 入库时间 2023-06-19 10:38:35

说明书

技术领域

本发明属于农业产品智能分选技术领域,具体涉及一种基于神经网络与近红外光谱的梨无损检测方法。

背景技术

中国是农业大国,农业产品的好坏直接影响食用口感,进而影响到出口及中国国内的销售情况。因此,对农产品的品质检测与智能分选,一直是农业从业人员、科研人员重要的研究方向。例如,在梨的品质检测中,梨的糖度、硬度以及含水量等都是衡量品质的重要化学指标。传统的检测方法例如抽样检测,存在检测代价高、检测时间长、检测结果不准确以及需要损坏样本的问题。

近红外光谱检测技术结合了光谱测量技术、计算机技术、数据分析技术,可以利用有机物质在近红外光谱区的振动吸收从而快速测定样本中多种化学成分含量的。近红外光谱的主要信息来自与含氢基团O-H、N-H、C-H的倍频和组合频,可溶性固形物的光谱鉴定依据的是其在光谱特征空间分布的特征,国内外学者在近红外光谱可溶性固形物检测领域开展了诸多研究。由于样品的状态、浓度、角度等因素对光谱会产生非线性影响,因此常规线性数据分析方法不能使用在实际工业流水线上。而神经网络,对于非线性问题的处理有着自己独特的优势,并且随着它的理论成熟逐渐的应用到各个领域。本发明将近红外光谱分析与神经网络模型结合,通过对损失函数的改进来应对样本不均衡的问题,并且对近红外光谱数据进行了十分完备的预处理,提供了一套梨智慧分选线中的糖度与霉心病的自动无损检测系统。

发明内容

本发明的目的是提供一种基于神经网络与近红外光谱的梨无损检测方法,以较高的准确度检测糖度与霉心病,为分选线的品质筛选提供强有力的依据,为农业产品的销售提供极大的便利。

本发明所采用的技术方案是,一种基于神经网络与近红外光谱的梨无损检测方法,具体按照以下步骤实施:

步骤1、在实际的分选线运作过程中,根据近红外光谱的平均光谱强度的变化,获取对于每一个样本而言最具有代表性的近红外光谱,使用这种方法对800个样品梨进行20次光谱采集,并且测量梨中的糖度与霉心病信息,构建初始数据集;

步骤2、使用光谱分析领域所常用的数据去噪与特征提取方式对步骤1得到的初始数据集进行预处理;

步骤3、使用区间选择、波长选择组合的方式根据步骤2中处理后得到的数据集对整个光谱波长区间进行特征选择,并根据选择结果构建特征数据集;

步骤4、将步骤3中处理得到的特征数据集,按照K折检验法多次划分,得到多组训练、测试数据集,训练、测试数据集的输入特征为特征数据集中处理后的光谱数据,标签为糖度与是否含有霉心病;

步骤5、构建两个神经网络模型,使用步骤4中得到的多组训练、测试数据集分别训练两个神经网络模型,综合多组训练、测试数据集的效果寻找最佳的参数设置,并得到最终的两个分别用于预测糖度与是否患有霉心病的模型用于后续实际检测,以达到无损品质检测的目的。

本发明的特点还在于,

步骤1具体如下:

步骤1.1、在分选线传送带的光谱检测处架设金属黑箱,保证除传送带经过处之外其他位置不允许光源射入,并且在传送带的入口与出口位置加上黑帘,目的是减少外界光源的干扰,以免对检测结果产生影响,在黑箱内部的传送带两侧,放置光源与近红外光谱仪检测探头,并保持其处于同一直线上,光源选择使用四盏1500w卤钨灯,光谱仪选择AvaSpec-ULS4096CL-EVO,目的是使光源多角度的穿透样本,保证检测结果的准确性;

步骤1.2、采用AvaSpec-ULS4096CL-EVO近红外光谱仪采集波长位于200-1100nm区间的光谱,采集速度为0.70ms/scan,选择对单个样本采集的所有光谱中平均光谱强度最低的光谱作为样本的代表光谱。

步骤1.2具体如下:

步骤1.2.1、在分选线运行过程中,保持光谱仪的持续运行,并且在系统中实时监控光谱仪得到的光谱数据,对于每一条光谱,计算其平均强度,并基于平均强度用阈值法判断此时红外光谱探头处是否有样品通过,如果有,将系统切换到数据采集状态;

步骤1.2.2、在数据采集状态中,系统会将每一个光谱仪返回的红外光谱与其光谱平均强度绑定,一起存入系统内存,并且继续保持数据采集状态;当计算得到的光谱平均强度回到曝光水平时,说明此样本已经完全经过红外光谱探头,此时停止数据采集状态,并进行下一步;

步骤1.2.3、遍历内存中所有的光谱平均强度数据,并选择其中的最低值,将与其绑定的红外光谱作为样本的代表光谱送入步骤2,之后清空内存中所有储存的光谱信息。

步骤2具体如下:

步骤2.1、数据平滑处理:选择S-G平滑滤波;

步骤2.2、光谱特征预处理:选择标准正太变换SNV与一阶梯度作为近红外光谱的预处理方法对光谱特征进行预处理。

步骤3具体如下:

步骤3.1、区间选择:将近红外光谱的数据等间隔的分为10个区间,进行多次区间选择以遍历所有的组合方案,每次将选取几个区间组合在一起形成特征向量,在此基础上使用支持向量机SVM进行模型拟合,并在测试数据集中计算模型预测的误差,在所有的组合方案中,选择误差最小的组合方案,以此作为近红外光谱数据的特征波长区域;

步骤3.2、波长选择:选择遗传算法GA进行进一步的筛选,遗传算法GA的主要参数设置:最大繁衍代数为100,交叉概率为0.5,变异概率为0.01,计算10次以消除影响;

经过光谱的区间选择与波长选择之后,大幅度的降低光谱的维度,能够有效的克服光谱数据的共线性和冗余,减少建模变量,降低模型复杂度。

步骤5具体如下:

步骤5.1、设计神经网络结构,包括输入层、隐藏层、输出层,输入层维度与步骤3中提取的特征维度保持一致;隐藏层一共两层,每一层包括N个神经元节点;输出层根据糖度预测任务与霉心病预测任务的不同而有所区别,糖度的预测模型神经网络输出层为1个节点,霉心病的预测模型神经网络的输出层为2个节点,代表是否有霉心病,并且使用Softmax函数作为模型的分类函数,模型层与层之间的激活函数选择Tanh函数,将学习率设置为衰减式学习率,采用Adam算法对网络进行优化,增加模型的鲁棒性,避免陷入局部最优解的局面,在训练过程中采用批量数据训练的方法,批量大小设为64;

步骤5.2、神经网络训练:参数设置包括初始学习率、正则项系数、以及步骤5.1构建过程中的隐藏层节点数N,对于每一中参数设置进行训练。使用步骤4中得到的多组训练、测试数据集,每一组数据进行一次拟合,训练数据集作为训练样本输入步骤5.1设计的神经网络模型中进行训练,使用测试数据集对模型进行评估,综合所有组数据的评估结果得到一个总体的对于当前参数设置的评估结果,最终得到最合适的参数设置方案;

步骤5.3、在霉心病的模型训练过程中,由于实际数据采集过程中,霉心病样本明显少于非霉心病样本,所以将训练的损失函数改为加权交叉熵,以解决样本不均衡的问题,最终得到可以很好的预测糖度与霉心病的两个神经网络模型用于无损品质检测。

本发明的有益效果是,一种基于神经网络与近红外光谱的梨无损检测方法,充分利用化合物特征信息,不破坏样本,实现了对于梨的准确、无损的品质检测。并且在检测过程中,识别速度快,可以很好的满足农业智能分选线上对于效率的需求。

附图说明

图1是本发明在通过光谱仪采集数据时所得到的初始近红外光谱谱形图;

图2是本发明对于初始近红外光谱进行S-G平滑后得到的去噪光谱谱形图;

图3是本发明对于去噪近红外光谱进行SNV处理后得到的标准化光谱谱形图;

图4是本发明对于标准化近红外光谱进行一阶梯度计算后得到的最终光谱谱形图;

图5是神经网络的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明所采用的技术方案是,一种基于神经网络与近红外光谱的梨无损检测方法,具体按照以下步骤实施:

步骤1、在实际的分选线运作过程中,根据近红外光谱的平均光谱强度的变化,获取对于每一个样本而言最具有代表性的近红外光谱,使用这种方法对800个样品梨进行20次光谱采集,并且测量梨中的糖度与霉心病信息,构建初始数据集;

步骤1中为了尽可能保证光谱在采集时能够穿透样本更多的果肉部分,我们选择对单个样本采集的所有光谱中平均光谱强度最低的光谱作为样本的代表光谱,因为光穿过样本的部分越多,被吸收的也会越多。而穿过样本部分最多的光谱,也会包含更精准的样本信息,可以减少样本内糖分分布不均匀所导致的误差。

步骤1具体如下:

步骤1.1、在分选线传送带的光谱检测处架设金属黑箱,保证除传送带经过处之外其他位置不允许光源射入,并且在传送带的入口与出口位置加上黑帘,目的是减少外界光源的干扰,以免对检测结果产生影响,在黑箱内部的传送带两侧,放置光源与近红外光谱仪检测探头,并保持其处于同一直线上,光源选择使用四盏1500w卤钨灯,光谱仪选择AvaSpec-ULS4096CL-EVO,目的是使光源多角度的穿透样本,保证检测结果的准确性;

步骤1.2、采用AvaSpec-ULS4096CL-EVO近红外光谱仪采集波长位于200-1100nm区间的光谱,采集速度为0.70ms/scan,在实际采集过程中,对于单个样本通过红外光谱采集探头的时间,大约会有20~30次光谱采集。为了尽可能保证光谱在采集时能够穿透样本更多的果肉部分,选择对单个样本采集的所有光谱中平均光谱强度最低的光谱作为样本的代表光谱。因为光穿过样本的部分越多,被吸收的也会越多。而穿过样本部分最多的光谱,也会包含更精准的样本信息,可以减少样本内糖分分布不均匀所导致的误差。

步骤1.2具体如下:

步骤1.2.1、在分选线运行过程中,保持光谱仪的持续运行,并且在系统中实时监控光谱仪得到的光谱数据,对于每一条光谱,计算其平均强度,并基于平均强度用阈值法判断此时红外光谱探头处是否有样品通过,如果有,将系统切换到数据采集状态(由于在没有样本通过时,光源直接照射红外光谱探头,光谱会始终处于曝光状态,所以在样本通过时,光谱平均强度比起曝光状态会有一个明显的下降,因此可以根据光谱平均强度来判断样本是否经过);

步骤1.2.2、在数据采集状态中,系统会将每一个光谱仪返回的红外光谱与其光谱平均强度绑定,一起存入系统内存,并且继续保持数据采集状态;当计算得到的光谱平均强度回到曝光水平时,说明此样本已经完全经过红外光谱探头,此时停止数据采集状态,并进行下一步;

步骤1.2.3、遍历内存中所有的光谱平均强度数据,并选择其中的最低值,将与其绑定的红外光谱作为样本的代表光谱送入步骤2,之后清空内存中所有储存的光谱信息。

步骤2、使用光谱分析领域所常用的数据去噪与特征提取方式对步骤1得到的初始数据集进行预处理;

步骤2具体如下:

步骤2.1、数据平滑处理:选择S-G平滑滤波;

步骤2.2、光谱特征预处理:在通过近红外光线经过样本的过程中,可溶性固形物的不同成分会吸收不同特定波长的光,因此会形成近红外光谱中不同坡度的特征峰和特征谷。因此,在使用近红外光谱对样本进行预测的过程中,应该起到作用的是光谱在特定波长的形状与倾斜度,而不是光谱本身的强度。所以需要将收集得到的近红外光谱的光强信息去除,增强与成分相关的光谱吸收信息。在尝试了多元散射矫正(MSC)、标准正太变换(SNV)、一阶梯度后,选择标准正太变换SNV与一阶梯度作为近红外光谱的预处理方法对光谱特征进行预处理。

步骤3、使用区间选择、波长选择组合的方式根据步骤2中处理后得到的数据集对整个光谱波长区间进行特征选择,并根据选择结果构建特征数据集;

为了尽量避免由于特征维数较多产生的过拟合现象,需要在光谱预处理的基础上,对光谱的特征进行筛选,选出对于模型拟合最有效的波长数据。采用区间选择与波长选择相结合的方式来进行特征的选择,即在区间选择的基础上,选择最适合模型拟合的特征波长,降低模型复杂度,缓解模型拟合中的过拟合问题,并且可以提升模型预测效率。

光谱仪在采集过程中得到的近红外光谱含有2000维的不同波长数据,为了尽量避免由于特征维数较多产生的过拟合现象,需要在光谱预处理的基础上,对光谱的特征进行筛选,选出对于模型拟合最有效的波长数据。

步骤3具体如下:

步骤3.1、区间选择:将近红外光谱的数据等间隔的分为10个区间,进行多次区间选择以遍历所有的组合方案,每次将选取几个区间组合在一起形成特征向量,在此基础上使用支持向量机SVM进行模型拟合,并在测试数据集中计算模型预测的误差,在所有的组合方案中,选择误差最小的组合方案,以此作为近红外光谱数据的特征波长区域;

步骤3.2、波长选择:区间选择可以从全光谱中优选出少量的波长区间,但相邻波长变量之间也存在较强共线性和冗余。遗传算法(GA)是一种全局概率搜索算法,借鉴生物进化和自然选择机制,利用选择、交换和突变等算子的操作使目标函数值最优。遗传算法进行波长选择可以产生大量的波长组合,能很好的保留波长之间的协同效应,选择遗传算法GA进行进一步的筛选,遗传算法GA的主要参数设置:最大繁衍代数为100,交叉概率为0.5,变异概率为0.01,计算10次以消除影响;

经过光谱的区间选择与波长选择之后,大幅度的降低光谱的维度,能够有效的克服光谱数据的共线性和冗余,减少建模变量,降低模型复杂度。

步骤4、将步骤3中处理得到的特征数据集,按照K折检验法多次划分,得到多组训练、测试数据集,训练、测试数据集的输入特征为特征数据集中处理后的光谱数据,标签为糖度与是否含有霉心病;

步骤5、构建两个神经网络模型,神经网络是一种运算模型,由大量的神经元节点和之间相互的连接构成,如图5所示。每个节点代表一种特定的输出函数,称为激活函数。使用步骤4中得到的多组训练、测试数据集分别训练两个神经网络模型,综合多组训练、测试数据集的效果寻找最佳的参数设置,并得到最终的两个分别用于预测糖度与是否患有霉心病的模型用于后续实际检测,以达到无损品质检测的目的。

对于训练霉心病模型,由于样本的特殊性,在训练数据集中必定会出现样本不均衡的问题,可能导致分类预测不准确。为了解决这个问题,将分类问题中常用的交叉熵损失函数修改为加权交叉熵,在训练过程中加入样本比例的影响,能够很好的解决样本不均衡的问题。

步骤5具体如下:

步骤5.1、设计神经网络结构,包括输入层、隐藏层、输出层,输入层维度与步骤3中提取的特征维度保持一致;隐藏层一共两层,每一层包括N个神经元节点;输出层根据糖度预测任务与霉心病预测任务的不同而有所区别,糖度的预测模型神经网络输出层为1个节点,霉心病的预测模型神经网络的输出层为2个节点,代表是否有霉心病,并且使用Softmax函数作为模型的分类函数,模型层与层之间的激活函数选择Tanh函数,将学习率设置为衰减式学习率,采用Adam算法对网络进行优化,增加模型的鲁棒性,避免陷入局部最优解的局面,在训练过程中采用批量数据训练的方法,批量大小设为64;

步骤5.2、神经网络训练:参数设置包括初始学习率、正则项系数、以及步骤5.1构建过程中的隐藏层节点数N,对于每一中参数设置进行训练。使用步骤4中得到的多组训练、测试数据集,每一组数据进行一次拟合,训练数据集作为训练样本输入步骤5.1设计的神经网络模型中进行训练,使用测试数据集对模型进行评估,综合所有组数据的评估结果得到一个总体的对于当前参数设置的评估结果,最终得到最合适的参数设置方案;

步骤5.3、在霉心病的模型训练过程中,由于实际数据采集过程中,霉心病样本明显少于非霉心病样本,所以将训练的损失函数改为加权交叉熵,以解决样本不均衡的问题,最终得到可以很好的预测糖度与霉心病的两个神经网络模型用于无损品质检测。

图1是光谱仪直接采集到的近红外光谱,由于采集过程中存在噪声,所以谱形图上存在明显的上下波动噪音。

在图1的基础上通过SG-平滑得到图2,可以明显看到在不改变近红外光谱整体谱形的基础上,去除了光谱的噪声。噪声会对光谱的拟合产生影响,尤其是在一阶梯度的计算中,噪声的存在会产生极大的误差。

SNV方法目的是对光谱进行标准化,实际工程的过程中,由于苹果大小、苹果摆放姿势、光照强度的影响,光谱之间的强度会存在很大的差异。为了消除这种差异的影响,我们使用标准化将光谱压缩在一个较小的范围内,效果见图3。

近红外光谱对样本内成分的表达主要体现在光谱的谱形中,一阶梯度可以保留曲线的形状信息,效果如图4所示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号