技术领域
本发明涉及光谱技术领域,尤其是一种基于无监督主动学习的品质检测方法。
背景技术
目前在各行各业,为了保证产品的质量,通常需要对产品进行品质检测,利用光谱检测技术不仅可以实现对产品的无损检测,而且检测方式较为简单,因此是目前对农产品和食品的品质检测的常用方法。利用光谱检测技术进行品质检测的核心是构建品质预测模型,因此寻求快速构建性能优异的品质预测模型的方法有利于提高产品品质检测的准确度和效率。
发明内容
本发明人针对上述问题及技术需求,提出了一种基于无监督主动学习的品质检测方法,本发明的技术方案如下:
一种基于无监督主动学习的品质检测方法,该方法包括:
分别采集各个样本产品的光谱数据并提取光谱特征,基于各个样本产品的光谱特征构建得到无标记初始样本集,无标记初始样本集中的每个初始集合元素包括对应的样本产品的光谱特征;
对无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇,每个样本簇包括无标记初始样本集中的若干个初始集合元素;
分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素;
将从所有样本簇中筛选出的每个特征集合元素对应的样本产品作为特征样本产品,通过理化分析确定每个特征样本产品的品质参数标签,基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集;
利用训练样本集训练得到品质检测模型,并基于品质检测模型对待检测产品进行品质检测。
其进一步的技术方案为,基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集,包括:
利用竞争性自适应重加权采样算法选取特征波段,基于各个特征样本产品在特征波段下的光谱特征和品质参数标签构建得到训练样本集。
其进一步的技术方案为,对无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇,包括:
利用层次凝聚聚类算法对无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图;
基于层次聚类树状图将簇间距离大于预定簇间距离阈值的两个簇进行划分得到不同的样本簇。
其进一步的技术方案为,利用层次凝聚聚类算法对无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图,包括:
将无标记初始样本集中的每个初始集合元素分别作为一个簇得到第一个簇集合,将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合,两个簇的簇间距离越小则相似度越大,p的初始值为1;
令p=p+1并再次执行将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合的步骤,直至第p+1个簇集合中仅有一个簇时得到层次聚类树状图。
其进一步的技术方案为,将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合,包括:
对于第p个簇集合中的任意两个簇,计算两个簇所包含的任意两个初始集合元素之间的相似度值,并根据计算得到的所有相似度值得到两个簇的簇间距离,将簇间距离最小的两个簇进行合并得到第p+1个簇集合。
其进一步的技术方案为,分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素,包括在从包含m个初始集合元素的样本簇中筛选出k个特征集合元素时:
求解
构建损失化函数,损失化函数包括第一重建误差和基于表示系数矩阵构建的重建结果的邻域关系表示误差,第一重建误差反应k个特征集合元素及各自对应的重建结果之间的误差之和,重建结果的邻域关系表示误差反应在利用每个重建样本点的目标局部邻域范围内其他重建样本点拟合重建样本点时的误差之和,m个重建样本点分别是m个初始集合元素对应的重建结果;
构建第二重建误差,第二重建误差反应m个初始集合元素及各自对应的重建结果之间的误差之和;
最小化损失化函数和第二重建误差,从m个初始集合元素中筛选得到k个特征集合元素。
其进一步的技术方案为,构建得到的损失化函数为:
其进一步的技术方案为,构建第二重建误差,包括:
将样本簇中的m个初始集合元素各自对应的重建结果构成的矩阵Q表示为Q=(μW
其中,μ是惩罚系数,矩阵W
其进一步的技术方案为,从每个样本簇中筛选出的特征集合元素的数量与样本簇包含的初始集合元素的总数量相关,不同样本簇中筛选出的特征集合元素的数量相同或不同。
其进一步的技术方案为,从包含m个初始集合元素的样本簇中筛选出的特征集合元素的数量为
本发明的有益技术效果是:
本申请公开了一种基于无监督主动学习的品质检测方法,该方法基于主动学习实现,首先选择最具典型的特征样本产品,然后再给特征样本产品打上品质参数标签,从而可以减少有标记样本的数量,减少破坏性理化实验,同时融合了样本多样性和代表性的选择标准,可以有效地提高品质预测模型的精度,可以减少建模难度,提高建模效率和精度,有利于优化品质检测结果。
附图说明
图1是本申请公开的品质检测方法的方法流程图。
图2是本申请采集光谱数据使用的近红外光谱采集系统的系统结构图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
本申请公开了一种基于无监督主动学习的品质检测方法,该方法包括如下步骤,请参考图1所示的流程图:
步骤1,分别采集各个样本产品的光谱数据并提取光谱特征,基于各个样本产品的光谱特征构建得到无标记初始样本集,无标记初始样本集中包括M个初始集合元素,每个初始集合元素对应一个样本产品,因此M同时也是样本产品的数量,每个初始集合元素包括对应的样本产品的光谱特征。在这一步中,每个样本产品尚未添加品质参数标签,因此称为无标记初始样本集。
本申请基于近红外光谱采集系统采集各个样本产品的近红外光谱数据,近红外光谱采集系统的结构请参考图2,样本产品1放置在样品架2上,光源3连接环形光导4,环形光导4套设在样品架2的外部均匀照射样本产品1,镜头组件5通过光纤6连接光谱仪7,样本产品1、样品架2、环形光导4和镜头组件5均置于暗箱8内,镜头组件5正对样本产品1,使得光谱仪7采集到样本产品1的光谱数据,光谱仪7连接计算机9将样本产品1的光谱数据传输给计算机9,实际该系统还包括给各部分供电的电源,本申请不再赘述,图上也未示出。在本申请中,光谱仪7采用Vis-SWNIR光谱仪,光谱范围为460-1100nm,光谱分辨率为1nm,每个光谱样本有641个变量。光源3采用石英钨卤素灯,其直接电源由强度控制器调节,通过直径为26mm的环形光导4将光引导到样本产品1,卤素灯电源设置为100W,光谱仪积分时间设置为100ms,目的是让所有被测苹果样本获得良好的光谱信号,同时避免过度曝光导致光饱和。在采集得到光谱数据后,通过数据处理方法即能提取得到光谱特征。
步骤2,对无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇,每个样本簇包括无标记初始样本集中的若干个初始集合元素。
本申请利用层次凝聚聚类算法来得到不同的样本簇,包括如下两个子步骤:
(1)利用层次凝聚聚类算法对无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图。具体的,将步骤1构建得到的无标记初始样本集中的每个初始集合元素分别作为一个簇得到第一个簇集合,将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合,两个簇的簇间距离越小则相似度越大,p为参数且p的初始值为1。令p=p+1并再次执行将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合的步骤,直至第p+1个簇集合中仅有一个簇时得到层次聚类树状图。
在计算任意两个簇的簇间距离时,若这两个簇均只包含一个初始集合元素,则直接计算这两个初始集合元素之间的相似度值,并将计算得到的相似度值作为两个簇的簇间距离;若存在至少一个簇包含至少两个初始集合元素,则计算两个簇所包含的任意两个初始集合元素之间的相似度值,并根据计算得到的所有相似度值得到两个簇的簇间距离,本申请将所有相似度值平均值作为两个簇的簇间距离。本申请使用未加权平均距离法进行簇间聚合。
(2)基于层次聚类树状图将簇间距离大于预定簇间距离阈值的两个簇进行划分得到不同的样本簇。预定簇间距离阈值根据实际需要确定,比如本申请可以设定为0.8。
步骤3,分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素,从所有样本簇中共筛选出K个特征集合元素。
在本申请中,从每个样本簇中筛选出的特征集合元素的数量与该样本簇包含的初始集合元素的总数量相关,因此不同样本簇中筛选出的特征集合元素的数量相同或不同。具体的,从包含m个初始集合元素的样本簇中筛选出的特征集合元素的数量为
为了方便说明,本申请定义包含m个初始集合元素的样本簇中的m个初始集合元素构成的矩阵X表示为X={x
(1)求解
(2)构建损失化函数,损失化函数包括第一重建误差和基于表示系数矩阵构建的重建结果的邻域关系表示误差,第一重建误差反应k个特征集合元素及各自对应的重建结果之间的误差之和,重建结果的邻域关系表示误差反应在利用每个重建样本点的目标局部邻域范围内其他重建样本点拟合重建样本点时的误差之和,m个重建样本点分别是m个初始集合元素对应的重建结果。
构建得到的损失化函数为:
(3)构建第二重建误差,第二重建误差反应m个初始集合元素及各自对应的重建结果之间的误差之和。
将样本簇中的m个初始集合元素各自对应的重建结果构成的矩阵Q表示为Q=(μW
其中,μ是惩罚系数,矩阵W
(4)最小化损失化函数和第二重建误差,即可从m个初始集合元素中筛选得到k个特征集合元素,筛选出的k个特征集合元素即为m个初始集合元素中最具代表性的一些集合元素,可以准确的重建出原始数据集。
具体的,通过最小化损失函数,可以求出与k个特征集合元素相关的重建结果矩阵Q,然后最小化第二重建误差即能得到k个特征集合元素。
步骤4,将从所有样本簇中筛选出的每个特征集合元素对应的样本产品作为特征样本产品,通过理化分析确定每个特征样本产品的品质参数标签,基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集。
在本申请中,特征样本产品的品质参数标签反应该样本产品在目标品质类型下的品质特征,目标品质类型是用户在对产品进行品质检测时感兴趣的特征,目标品质类型属于产品的缺陷、成分含量和杂质情况中的至少一种品质大类。比如用于反映产品的缺陷的目标品质类型包括产品外部/内部的腐烂、疤痕、疮痂、凹陷、病变等;用于反映产品的成分含量的目标品质类型包括产品的浓度、含糖量、药物残留量、有机物含量等;用于反映产品杂质情况的目标品质类型包括产品的杂质含量或杂质浓度等。比如目标品质类型是产品的含糖量,则可以通过对每个样本产品进行理化分析确定每个样本产品的可溶性固形物含量,从而根据可溶性固形物含量确定对应的品质参数标签。在现有的方法中,为了获得具有较好泛化性能的模型,通常需要大量的训练样本,然而获取训练样本的光谱信息容易、但给每个训练样本标注品质参数标签往往涉及大量的时间和经济成本,且具有较大的破坏性,本申请只需对少量典型的特征样本产品标注品质参数标签,减少了工作量和破坏性。
可选的,本申请还利用竞争性自适应重加权采样算法选取特征波段,基于各个特征样本产品在特征波段下的光谱特征和品质参数标签构建得到训练样本集,进一步对原始的光谱特征进行筛选提取。
步骤5,利用训练样本集训练得到品质检测模型,并基于品质检测模型对待检测产品进行品质检测,也即利用训练得到的品质检测模型对待检测产品的目标品质类型进行检测,比如在上述举例中,可以利用品质检测模型确定得到待检测产品的可溶性固形物含量,从而确定产品的含糖量。
以上所述的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。
机译: 无监督的基于学习的检测方法和驱动程序介绍的基于型轮的车辆盗窃检测装置和使用该方法
机译: 无监督的基于学习的检测方法,以及基于驱动程序的车辆盗窃检测装置和使用该方法
机译: 用于自动语音识别的无监督和主动学习的系统和方法