首页> 中国专利> 基于SIMCA模型的香芋风味南瓜资源的识别方法

基于SIMCA模型的香芋风味南瓜资源的识别方法

摘要

本发明公开了一种基于SIMCA的香芋风味南瓜资源的识别方法,该方法包括如下步骤:制备香芋风味的南瓜样品及非香芋风味的南瓜样品;通过电子鼻系统分别获取香芋风味的南瓜样品及非香芋风味的南瓜样品的初始气味数据;该初始气味数据至少包括香芋风味的训练数据;进行数据预处理,在香芋风味的南瓜样品的初始气味数据中,获取各传感器对应的最大响应值数据,数据重新排列成二维数据的形式;根据香芋风味的训练数据构建SIMCA识别模型,通过电子鼻系统分别获取待测样品的识别气味数据,并将该识别气味数据输入识别模型进行识别并输出识别结果。本发明基于SIMCA模型,并采用电子鼻系统的采集样品,提高香芋风味南瓜资源识别的效率和准确性。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-11

    授权

    授权

  • 2019-12-03

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20190709

    实质审查的生效

  • 2019-11-08

    公开

    公开

说明书

技术领域

本发明涉及生物资源识别领域,具体涉及基于SIMCA模型的香芋风味南瓜资源的识别方法。

背景技术

南瓜是葫芦科植物中一种重要的园艺作物,其中香芋风味南瓜因其具备浓郁香味的特点,是市场上深受消费者青睐的小果型南瓜品种之一,销售价格较高,具有较好的经济效益。

香芋南瓜的香味是其品质构成的重要指标,在香芋南瓜品种选育过程中,十分关键的问题是对芋香味性状的准确鉴定,目前,育种家常采用感官鉴定的方法,主要依靠主观嗅觉来进行香味性状的判断,但是此方法具有一定的局限性,缺乏客观判断的标准,检测人的嗅觉阈值差异不同,感官差异较大,鉴定结果准确定和可靠性难以保证,会对香芋风味南瓜资源材料的鉴定、筛选产生主观影响,而不能对香芋南瓜的筛选做出一种数据化的、客观的评价。因此有必要建立一种对香芋风味南瓜资源材料的整体香味性状判别的方法,准确、高效的进行香芋风味南瓜资源的筛选。

发明内容

本发明的目的在于提供一种基于SIMCA模型的香芋风味南瓜资源的识别方法,本发明提高香芋风味南瓜资源识别的效率和准确性。

其技术方案如下:

一种基于SIMCA模型的香芋风味南瓜资源的识别方法,该方法包括如下步骤:

S1.制备香芋风味的南瓜样品及非香芋风味的南瓜样品;

S2.通过电子鼻系统分别采集香芋风味的南瓜样品及非香芋风味的南瓜样品的初始电子鼻响应数据;

S3.对样品的初始电子鼻响应数据进行数据预处理,包括:

S31.传感器筛选,去除噪声大,响应不稳定的传感器数据;

S32.对数据进行基线校正和去噪声;

S33.每个样品数据经上述处理后,取其各传感器对应的最大值,作为样品集数据;

S4.根据香芋风味南瓜样品的训练数据构建识别模型,包括:

S41.从经数据预处理后的数据中选取部分香芋风味的南瓜样品的数据作为建模的训练集;

S42.设置不同的组分数用所述训练集数据构建SIMCA模型,根据模型的残差选取最优组分数;

S43.在最优组分数设置下用训练集数据建立SIMCA模型,作为香芋风味南瓜资源的识别模型;

S5.用香芋风味南瓜样品和非香芋风味的南瓜样品数据验证识别模型,包括:从经数据预处理后的数据中选取部分香芋风味的南瓜和非香芋风味的南瓜样品的数据作为验证集;

S51.用S4.建立的香芋风味南瓜资源的识别模型将识别验证集数据,根据识别的结果判断模型的有效性;

S52.当验证集数据识别正确率大于阈值时,认为模型有效,否则重新构建样品集数据,重复步骤S4.和S5直至得到有效的香芋风味南瓜资源的识别模型;

S6.通过电子鼻系统分别获取待测样品的初始电子鼻响应数据,并进行数据预处理,处理后的数据输入识别模型进行识别。

优选地,在前述步骤中,收集南瓜成熟果实,果实切块后液氮冷冻干燥,研磨成粉,制备成所述香芋风味的南瓜样品及非香芋风味的南瓜样品。

优选地,通过传感器获取初始气味数据时,通过传感器获取初始气味数据时,顶空温度为30℃至40℃、顶空时间为1.1小时至1.8小时,样本重量为8克至12克,载气流速为170毫升/分至220毫升/分,数据采集时间80秒至120秒,采样时间间隔0.8秒至1.3秒,传感器归零时间为2.8秒至3.2秒,进样准备时间为2.8至3.2秒。

更优选地,通过传感器获取初始气味数据时,顶空温度为35℃、顶空时间为1.5小时,样本重量为10克,载气流速为190毫升/分,数据采集时间100秒,采样时间间隔1秒,传感器归零时间为3秒,进样准备时间为3秒。

优选地,只使用香芋风味的南瓜样品的数据作为训练集,验证集数据包括香芋风味的南瓜样品的数据、非香芋风味的南瓜样品的数据;在前述步骤中,构建识别模型后,将香芋风味的验证数据、非香芋风味的验证数据,作为验证集,分别输入识别模型进行验证,并输出验证结果。

优选地,S3步骤中,样品的初始电子鼻响应数据需要进行数据预处理,包括:传感器筛选,去除噪声大,响应不稳定的传感器数据;对数据进行基线校正和去噪声,方法包括但不局限于差分法、相对法、差商法、归一化等;样品数据经上述处理后,取其各传感器对应的最大值,作为样品集数据。

其中差分法数学表达为:

Rij=xij-x1j

其中相对法数学表达包括如下几种情况:

其中差商法是差分法和相对法的结合,其数学表达式是用(xij-x1j)来代替相对法公式中的xij

其中归一化的数学表达为:

这里Rij表示经过数据预处理后,第j个传感器在第i个时间采集点的响应信号;xij表示经第j个传感器在第i个时间采集点的瞬时响应信号;X表示所测样品在所有传感器和每个采集时间的响应数据所组成的矩阵,即X是一个的n×p的矩阵;x1j表示第j个传感器的初始响应信号;xj表示所测样品在第j个传感器的每一个采集时间的响应数据所组成的一个n×1向量;xr是一个选定的1×p参考向量;xi表示所测样品在第i个时间采集点所有传感器响应数据所组成的一个1×p向量;||xi||则表示向量xi的模;算式max表示取最大值,算式min表示取最小值。优选地,所述电子鼻系统为含若干个MOS传感器阵列的电子鼻系统。

更优选地,所述电子鼻系统为含10个MOS传感器的Airssense电子鼻系统PENs。

优选地,S6.步骤中,待测样品的预处理后的电子鼻数据输入识别模型时,根据模型计算得到的待测样品数据残差,和待测样品数据点与建模数据点重心之间的距离判别该待测样品是否属于香芋风味的南瓜样品,并将该识别结果输出。

本发明的发明人在经过大量的对香芋风味南瓜的检测中发现,采取到的样品数据是非对称数据,最终选择了单类成分判别分析(Single Component DiscriminantAnalysis,SIMCA)方法,结合电子鼻采集的数据,特别是为了进一步达到同类样品的响应差异达最小同时不同类样品响应差异达最大,对电子鼻检测的实验参数进行了优化,使获得的数据能够很好用于SIMCA建模,从而最终实现了对香芋风味南瓜的检测。采用本发明所述香芋风味南瓜资源的识别方法,能够有效的排除相似性状干扰、个体性状差异等情况,有效地识别出香芋风味南瓜资源,而且所得到的结果比单纯靠人嗅觉判断香味更加客观、可靠。

此外,当模型数据库需要进行扩充时,只需将新增样品在原有模型基础上进行特征品质训练即可获得新的模型,因此本发明还具有较好的可扩展性。

附图说明

图1是香芋风味南瓜样品电子鼻数据经S31步骤处理后的三维图示结果。

图2是香芋风味南瓜样品电子鼻数据经S31步骤处理后的二维图示结果。

图3是香芋风味南瓜样品电子鼻数据经S32步骤处理后的三维图示结果。

图4是香芋风味南瓜样品电子鼻数据经S32步骤处理后的二维图示结果。

图5是香芋风味南瓜样品电子鼻数据经S33步骤处理后的结果。

图6是S42步骤中主成分判别分析法建模所需组分数优化的情况。

图7是S5步骤中香芋风味南瓜资源的识别模型建模结果和验证结果。

具体实施方式

为了便于理解本发明,下面将对本发明进行更全面的描述。本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明公开内容的理解更加透彻全面。

下列实施例中未注明具体条件的实验方法,通常按照常规条件。除非另有定义,本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不用于限制本发明。本发明所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明的一个方面是提供了一种香芋风味南瓜资源的识别方法,该方法包括如下步骤:

制备香芋风味的南瓜样品及非香芋风味的南瓜样品;

通过电子鼻系统分别采集香芋风味的南瓜样品及非香芋风味的南瓜样品的初始电子鼻响应数据(本实施例中,通过电子鼻系统获取初始气味数据时,顶空温度为35℃、顶空时间为1.5小时,样本重量为10克,载气流速为190毫升/分,数据采集时间100秒,采样时间间隔1秒,传感器归零时间为3秒,进样准备时间为3秒);

对样品的初始电子鼻响应数据进行数据预处理,包括:传感器筛选,去除噪声大,响应不稳定的传感器数据;

对数据进行基线校正和去噪声,方法包括但不局限于差分法、相对法、差商法、归一化等;

每个样品数据经上述处理后,取其各传感器对应的最大值,作为样品集数据;

根据香芋风味南瓜样品的训练数据构建识别模型,包括:从经数据预处理后的数据中选取部分香芋风味的南瓜样品的数据作为建模的训练集;

设置不同的组分数用所述训练集数据构建SIMCA模型,根据模型的残差选取最优组分数;

在最优组分数设置下用训练集数据建立SIMCA模型,作为香芋风味南瓜资源的识别模型;

用香芋风味南瓜样品和非香芋风味的南瓜样品数据验证识别模型,包括:从经数据预处理后的数据中选取部分香芋风味的南瓜和非香芋风味的南瓜样品的数据作为验证集;

用建立的香芋风味南瓜资源的识别模型将识别验证集数据,根据识别的结果判断模型的有效性;

当验证集数据识别正确率大于阈值时,认为模型有效,否则重新构建样品集数据,重复构建和验证模型步骤直至得到有效的香芋风味南瓜资源的识别模型;

通过电子鼻系统分别获取待测样品的初始电子鼻响应数据,并进行数据预处理,处理后的数据输入识别模型进行识别,然后输出识别结果。

本实施例所述香芋风味南瓜资源的识别方法是基于SIMCA模型。单类成分判别分析(Single Component Discriminant Analysis,SIMCA)是一种二值判定方法。SIMCA方法在每一次建模是选取一个类别的样品数据作为训练集,然后基于训练集样品数据建立主成分分析模型。在判定未知样品时,根据未知样本点与建模样品重心的马氏距离和模型应用于位置样品数据时的方差,判别未知样本是否属于建模样品所属的类别。SIMCA适用于样品数据为非对称结构的情况,能获得比DFA等方法更好的建模效果。

本申请的发明人也尝试过采用PCA(Principal Component Analysis,主成分分析方法)、DFA(Discriminant Factor Analysis,判别因子分析等方法对数据构建模型,经检验效果并不理想,只有使用SIMCA模型,才获得了有效的识别模型。原因在于,本发明所要解决的问题,SIMCA方法更适合该类型数据的建模。

在其中一个实施例中,所述方法的具体步骤如下:

S1、收集香芋风味和非香芋风味的南瓜成熟果实样品,果实切块后立即液氮冷冻,冷冻干燥,研磨成粉,制备成样品;

S2、使用电子鼻系统的10个传感器采集S1步骤中的香芋风味和非香芋风味的南瓜样品的气味信息数据;

本实施例所述香芋风味南瓜资源的识别方法使用电子鼻系统的采集样品,电子鼻系统具有样品前处理简单、灵敏度高、检测速度快、而且能结合多种统计学方法获得直观分析结果等优点,其分析结果呈现“模糊评价”特征,是对样本整体香味特征进行比较。

电子鼻系统中所使用传感器一般具有普适性和部分选择性,为了达到同类样品的响应差异达最小同时不同类样品响应差异达最大,需要对电子鼻检测的实验参数进行优化,本实施例对电子鼻采集条件中顶空温度、顶空时间、进样重量、载气流速、数据采集时间等因素进行了优化,以获得有效用于建模的数据。

本实施例,所述电子鼻系统为含10个MOS传感器的Airssense电子鼻系统PENs;最优选地,所述电子鼻系统的采集条件为:顶空温度35℃,顶空时间1.5小时,样本重量10克,载气流速190毫升/分,数据采集时间100秒,采样时间间隔1秒,传感器归零时间3秒,进样准备时间3秒;在此条件下,灵敏度高,能最好地采集到有效的数据。

在S2步骤中,所述的条件下电子鼻采集的数据具有代表性,能够确保模型的准确性,多个随机样品进行验证,正确率达到100%,其验证结果如图7所示。

S3、对S2步骤中电子鼻系统采集到的原始进行数据预处理。

S31、对电子鼻数据进行传感器筛选,去除噪声大,响应不稳定的传感器数据。

通过该步骤处理后的数据如图1-2示。此实施例中去除1个噪声大、响应不稳定的传感器后,其余9个传感器(Sensors)的样品数据。图1和2分别是一个代表样品在9个传感器(Sensors)、不同时间(Times)、不同响应值(Intensity)的三维关系示意图和二维关系示意图。

S32、使用数据预处理方法对数据进行基线校正和去噪。预处理方法可以采用差分法、相对法、差商法、归一化等。

在此实施例中,S32步骤中使用如下数据预处理方法为:

这里xij是时间i时传感器的瞬时响应值;x1j是传感器的初始响应值;

通过该步骤处理后的数据如图3、图4所示。图3和4分别是经过上述公式计算后一个代表样品电子鼻数据的三维关系示意图和二维关系示意图。

S33、每个样品数据经S32步骤中数据处理后,取其各传感器对应的最大值,重新构成新的样品数据形式;

在此实施例中,S43.中使用的数据排列方式是n×p的二维数据。其中n是行,每一代表一个样品的数据。其中p是列,每一列表一个传感器对某一样品的最大响应值。对第j个传感器,其值为:

通过该步骤处理后,一个代表样品的数据如图5所示,即9个传感器(Sensors)所对应的最大响应值(Intensity)。

S4、根据香芋风味南瓜样品的训练数据构建识别模型,包括:

S41.从经数据预处理后的数据中选取部分香芋风味的南瓜样品的数据作为建模的训练集;

在此实施例中,15个香芋风味的南瓜样品的数据作为SIMCA建模的训练集。

S42.设置不同的组分数用所述训练集数据构建SIMCA模型,根据模型的残差选取最优组分数;

在此实施例中,考察组分数为1至9时的建模效果,结果如图6所示。从图中可得,当分数为2时的建模残差显著低于组分数为2时的建模残差。当组分数大于2时,建模残差变化并不显著。因此,此实施例中最优组分数为2。

S43、在最优组分数设置下用训练集数据建立主成分判别分析法的模型,作为香芋风味南瓜资源的识别模型。

在此实施例中,建模效果如图7所示。图中浅蓝色背景区域是根据模型的结果画出的香芋风味南瓜样品识别区;其余区域(无颜色背景)则为非香芋风味的南瓜样品识别区。

S5.用香芋风味南瓜样品和非香芋风味的南瓜样品数据验证识别模型,包括:从经数据预处理后的数据中选取部分香芋风味的南瓜和非香芋风味的南瓜样品的数据作为验证集;

在此实施例中,用使用3个香芋风味南瓜样品和75个非香芋风味的南瓜样品数据作为验证集。

S51.用S4.建立的香芋风味南瓜资源的识别模型将识别验证集数据,根据识别的结果判断模型的有效性;

在此实施例中,模型的验证结果如图7所示。验证集中的3个香芋风味南瓜样品点(图示■)落入了香芋风味南瓜样品识别区(浅蓝色背景区域)内,被正确判定为香芋风味南瓜样品。75个非香芋风味的南瓜样品点(图示△)落入非香芋风味的南瓜样品识别区(无颜色背景区域)内,被正确判定为非香芋风味南瓜样品。

S52.当验证集数据识别正确率大于阈值时,认为模型有效,否则重新构建样品集数据,重复步骤S4.和S5直至得到有效的香芋风味南瓜资源的识别模型;

在此实施例中,判定模型有效性的阈值设置为95%。由于验证集中的3个香芋风味南瓜样品和75个非香芋风味的南瓜样品全部被争取识别(图7所示),识别正确率为100%,因此该香芋风味南瓜资源的识别模型有效。

当模型数据库需要进行扩充时,只需将新增样品在原有模型基础上进行特征品质训练即可获得新的模型,因此本发明还具有较好的可扩展性。

以上仅为本发明的具体实施例,并不以此限定本发明的保护范围;在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号