技术领域
本发明属于奶品分析技术领域,具体涉及骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法。
背景技术
Lu Deng等基于骆驼和牛线粒体的16S-RNA基因,设计了双链PCR的特异性引物,利用双重PCR可以检出骆驼奶里掺加的0.1%奶牛奶
中红外光谱分析是近年来快速发展起来的一种快速、无损、无公害、可多组分同时分析的现代技术。已有研究表明,中红外光谱可较好地预测水牛奶的酸度特征:例如在校准集和验证集中分别正确分类为未凝结91.57%和67.86%的牛奶样本
发明内容
本发明的目的在于克服现有技术存在的缺陷,提供一种骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法,本发明确定了骆驼奶中掺加奶牛奶及其掺加比例快速鉴定的最佳光谱预处理方法和建模算法组合,得到一种最优模型,提高了对骆驼奶中掺加奶牛奶的鉴别速度及其准确度。
本发明的技术方案如下所述:
一种骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法,所述方法包括以下步骤:
1)选取奶样
分别采集骆驼奶和掺有奶牛奶的骆驼奶作为检测样本;
2)采集中红外光谱(简称MIR)
采用乳成分检测仪对骆驼奶样本进行扫描,通过相连的计算机输出每个样本对应的透光率;
3)数据预处理
将原始光谱数据由透光率(T)转化为吸光度(A),去除异常值;
4)划分数据集
数据集按照分层抽样的原则划分为训练集和测试集,两者分别占数据集的80%和20%;
5)确定建模光谱波段
筛选骆驼奶和掺有奶牛奶的骆驼奶样本的差异波段,并去除水的吸收区域;
6)建立模型与筛选最优模型
以训练集样本的中红外光谱为输入值,以骆驼奶和掺有奶牛奶的骆驼奶的类别为输出值,使用不同光谱预处理方法和不同建模算法组合建立模型,使用准确率和Kappa系数指标对模型进行评估和筛选,筛选得到最优模型;
7)最优模型的验证与应用
另取骆驼奶和掺有奶牛奶的骆驼奶样本,使用筛选出的最优模型对样本进行鉴别,评估其应用性能;
其中:
步骤2)中采集中红外光谱时,将骆驼奶样本分别倒入直径3.5cm,高9cm的圆柱形采样管中,保证液面高度大于6cm,然后将其在42℃水浴锅中水浴15-20min,再将固体光纤探头伸到液体中吸样检测;
步骤3)中根据A=log
步骤5)中使用的筛选差异波段的方法为Pearson相关性检验和相关性的显著性检验,最终使用波数范围为925.52-1091.814cm
步骤6)中使用的光谱预处理方法为用一阶微分(Diff)、标准正态变量变换(SNV)、多元散射校正(MSC)和SG卷积平滑,使用的建模算法为随机森林(RF)和支持向量机(SVM);
步骤7)中选择的最优模型为无预处理和支持向量机算法组合,最优模型在训练集、测试集和验证集中的准确率均为1,且验证过程不超过5分钟,即本发明选择的最优模型可以对骆驼奶和掺有不同体积比奶牛奶的骆驼奶实现快速、精准鉴别。
本发明与现有技术相比的有益效果:
(1)本发明得到关键技术在于使用Pearson相关性检验和相关性的显著性检验筛选出差异波段,筛选出最终用于建模的光谱波段为925.52-1091.814cm
附图说明
图1:本发明建模波段的光谱图。即三类骆驼奶在建模波段的吸光值图。附图标记说明:图1中横坐标为光谱波数,纵坐标为吸光度,建模波段为925.52-1091.814cm
图2:本发明测试集的ROC曲线。ROC曲线可以衡量模型在测试集的性能。附图标记说明:图2中横坐标为假阳性率,纵坐标为真阳性率,AUC为ROC曲线下与坐标轴围成的面积,其取值范围在0.5和1之间,AUC越接近1.0,表明方法的真实性越高,图2中AUC为1,表明本发明的模型真实性高。
图3:本发明测试集的分类概率图。附图标记说明:图3中横坐标为预测概率,纵坐标为预测的类别,例如图3中左下方的圆点表示该样本被分为0类的概率为0.676,且为正确分类;图3中表明测试集中的样本均被正确分类,且0类即未掺加奶牛奶的骆驼奶被正确分类的概率为0.676-0.997,1类即掺有20%(体积比)奶牛奶的骆驼奶被正确分类的概率为0.854-0.985,2类即掺有50%(体积比)奶牛奶的骆驼奶被正确分类的概率为0.736-0.986。表明本发明的模型能够对样本实现高概率的正确分类。
具体实施方式
本发明的技术方案,如未特别说明,均为本领域的常规方案。本发明应用的试剂或材料,如未特别说明,均来源于商业渠道。
在本发明的技术方案中,一阶微分(Diff)、标准正态变量变换(SNV)、多元散射校正(MSC)和SG卷积平滑等参数调整,本领域技术人员可根据研究对象进行常规调整。
在本发明实施例中,中红外光谱数据预处理、模型构建及验证等均通过Python3.8.3实现。
实施例1:模型的建立与筛选
仪器与设备:选用FOSS公司生产的MilkoScan
具体步骤如下:
(1)奶样的采集
从骆驼场采集骆驼奶样本100个,掺有25%(体积比)奶牛奶的骆驼奶样本89个,掺有50%(体积比)奶牛奶的骆驼奶样本98个;
(2)测定中红外光谱
将奶样分别倒入直径3.5cm,高9cm的圆柱形样品管中,保证液面高度大于6cm,然后将其在42℃水浴锅中水浴15-20min,再将固体光纤探头伸到液体中吸样检测,通过其软件得到样本的透光率;
(3)数据预处理
依据A=log
(4)划分数据集
将数据集按分层抽样法分为训练集(n=224:纯骆驼奶78个、掺有25%奶牛奶的骆驼奶70个、掺有50%奶牛奶的骆驼奶76个)和测试集(n=56:纯骆驼奶19个、掺有25%奶牛奶的骆驼奶18个、掺有50%奶牛奶的骆驼奶19个);
在建模过程中,0代表纯骆驼奶类,1代表掺有25%奶牛奶的骆驼奶类,2代表掺有50%奶牛奶的骆驼奶类。表2为三类骆驼奶常规乳成分的描述性统计,由表1中可得知,掺加奶牛奶后,骆驼奶的脂肪、蛋白、非乳脂固形物(SNF)和总固形物(TS)含量极显著降低(P<0.01)。
表1剔除异常值时的样本量变化
表2常规乳成分的描述性统计
注:同行数据肩标不同字母表示差异显著(P<0.05),有相同字母表示差异不显著(P>0.05)。
(5)确定建模光谱波段
对光谱数据进行Pearson相关性检验,并对相关性进行显著性分析,且去除水的吸收区域,最终选择925.52-1091.814cm
(6)建立模型与筛选最优模型
分别采用一阶微分(Diff)、标准正态变量变换(SNV)、多元散射校正(MSC)和SG卷积平滑对光谱数据进行预处理,同时也与不使用预处理的数据进行比较。
使用随机森林(RF)和支持向量机(SVM)算法利用训练集数据建立分类模型,并对测试集中的样本进行预测。在不同预处理下,RF和SVM算法的建模结果如表3所示。
表3不同预处理下RF和SVM的建模结果
在上述多分类判别模型中,以准确率和Kappa系数来评价模型的性能。其中,准确率为正确判断占所有判断的概率,其值越接近1越好;Kappa系数常用于一致性检验,也用于衡量分类的精度,其值越接近1越好。由表3中结果可知,SVM算法在此分类任务中比RF算法表现出强的学习能力,且无处理、一阶微分处理和SG卷积平滑处理的SVM模型在骆驼奶掺假的分类训练中均取得优秀的结果,说明模型均能准确鉴别训练集和测试集的三类目标。预处理时对光谱数据使用一阶微分或SG卷积平滑,不仅会增加运算难度,也会增加运行时长;此外,由表2可知三类数据在常规乳成分上具有极显著的差异,说明此两类数据本身具有较大差异不使用额外的数据预处理方法也可以使模型得到很好地效果。因此,在众多模型中选择不处理与支持向量机的组合建立的模型为最优模型。
利用选择的最优分类模型,预测测试集的56个样本。以混淆矩阵衡量模型在测试集的性能,如图2所示。由图2可知,本实施例中测试集没有出现错分类情况,说明模型在测试集上具有良好的分类效果。
图3为测试集中类别分类的概率,例如图中左下方的圆点表示此样本被分为0类的概率为0.676,且为正确分类。由图可知,测试集中的所有样本均被正确分类,且大部分样本被正确分类的概率>0.95。
实施例2:本发明模型的应用
取22个骆驼奶掺有奶牛奶样本对模型进行验证,将预测结果与真实结果对比。其中22个样本的类型已提前记录。
采用实施例1的测定光谱、数据预处理等技术,对22个样本进行测定和处理,使用筛选出的最优模型进行预测。
结果如表4所示。
表4模型验证结果
本发明的鉴定的结果与真实情况完全相同,5个纯骆驼奶,6个掺有25%奶牛奶的骆驼奶和11个掺有50%奶牛奶的骆驼奶。
本发明的最优模型使用的光谱波段为925.52-1091.814cm
参考文献
[1]王之莹.基于核酸扩增技术的高值乳品快速鉴别方法研究[D].中国农业科学院,2020;
[2]汪六三等.基于近红外光谱和机器学习的大豆种皮裂纹识别研究[J/OL].农业机械学报:1-15[2021-04-27].http://kns.cnki.net/kcms/detail/11.1964.s.20210329.1535.006.html;
[3]谢立娜等,基于氨基酸分析的乳品掺假鉴别研究[J].农产品质量与安全,2021(01):67-72;
[4]C.C.Fagan,C.Everard,C.P.O’Donnell,G.Downey,E.M.Sheehan,C.M.Delahunty,D.J.O’Callaghan.Evaluating Mid-infrared Spectroscopy as a NewTechnique for Predicting Sensory Texture Attributes of Processed Cheese[J].Journal of Dairy Science,2007,90(3);
[5]Lu Deng,Aili Li,Yang Gao,et,al.Detection of the Bovine MilkAdulterated in Camel,Horse,and Goat Milk Using Duplex PCR[J].Springer US,2020,13(2);
[6]Manuelian C L,Visentin G,Boselli C,et al.Short communication:Prediction of milk coagulation and acidity traits in Mediterranean buffalomilk using Fourier-transform mid-infrared spectroscopy[J].Journal of DairyScience,2017:S0022030217306276;
[7]Soyeurt H.,Grelet C.,McParland S.,Calmels M.,Coffey M.,Tedde A.,Delhez P.,Dehareng F.,Gengler N..A comparison of 4 different machine learningalgorithms to predict lactoferrin content in bovine milk from mid-infraredspectra[J].Journal of Dairy Science,2020,103(12);
[8]Xu W,Knegsel A,Vervoort J,et al.Prediction of metabolic status ofdairy cows in early lactation with on-farm cow data and machine learningalgorithms[J].Journal of Dairy Science,2019,102(11)。
机译: 基于未掺奶的奶茶生产牛奶蔬菜饮料的方法
机译: 制造高耐久性,环境友好的渗透性混凝土的方法,它利用低碳掺混水泥,高性能的风化花岗岩土,水易碎纤维,颜料,无机水质解决方案和加筋方法
机译: 掺加石灰粉的火电厂硅酸盐水泥结合剂的制备方法