首页> 中国专利> 一种基于遗传算法的支持向量机分类器参数选择的蜂蜜检测方法

一种基于遗传算法的支持向量机分类器参数选择的蜂蜜检测方法

摘要

一种基于遗传算法的支持向量机分类器参数选择的蜂蜜检测方法,其特征在于所述遗传算法的基本运算过程:1)数据初始化:设置最大进化代数,随机生成的个体数及其所构成的群体。选择个体数20个,最大迭代次数100代。2)个体评价:计算群体中各个个体的适应度,本申请中适应度为样本分类的准确率。3)选择运算:利用选择算子对群体中的各个个体进行随机选择。本申请中利用轮盘赌法结合个体评价的准确率对个体进行选择,从而将适应度较高的个体信息可以遗传到下一代。4)交叉运算:利用交叉算子对个体中的个体进行叠加重组产生新的个体,集成上代个体中的特征信息。5)变异运算:利用变异算子对个体按概率进行随机变异。群体经过选择、交叉、变异运算之后得到下一代群体。6)终止判断:若迭代次数达到最大代数或适应度达到所需要求则停止迭代。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-12-28

    授权

    授权

  • 2014-02-05

    实质审查的生效 IPC(主分类):G01N27/00 申请日:20130730

    实质审查的生效

  • 2014-01-01

    公开

    公开

说明书

技术领域

本申请涉及一种基于遗传算法的支持向量机分类器参数选择的蜂蜜检测方法。 

背景技术

我国蜂蜜产量居世界首位,近年来产量一直保持快速增长的趋势,由2001 年的25.2 万吨增加到2009 年的40.2 万吨,占世界总产量也由近20%提高到30%多。但由于经济利益的驱动,目前蜂蜜市场掺假严重,导致掺假蜂蜜占据了蜂蜜市场的20%~30%,有些地区掺假造假的蜂产品占50%左右,严重损坏了消费者利益、影响蜂蜜产业健康发展、打击出口贸易创汇。 

由于缺乏检测手段的影响,导致掺假打击面临困难,其根本原因如下:(1)由于蜂蜜本身的主要物质结构比较简单,包含水和糖类成分,给掺假提供了便利条件,同时,单靠检测这几种物质含量的多少根本没办法判别是否掺假;(2)由于蜂蜜受蜜源植物种类、蜜蜂群势强弱、蜜期时间长短、空气的温度和湿度,以及蜂蜜的加工、贮存、结晶等多种因素影响,造成蜂蜜主要物质的含量范围变化较大,使得蜂蜜掺假简单、方便;(3)C4等掺假检测费用高、无法大规模用于实际检测和执法。 

香气是产品品质体现的重要属性之一,产品香气表征需要突出其客观性、真实性与全面性。目前气相色谱(GC)、气相色谱-质谱联用(GC-MS)和气相色谱- 嗅辨(GC-O)等方法,只能检测产品中有限的单体香气物质,并且这些香气之间存在协同、变调等现象,很难从整体上反映样品的香气品质。而智能嗅觉系统(电子鼻)能够模拟人类嗅闻特征,综合表征香气的整体信息,体现香气的嗅觉特征和整体品质,同时比人的嗅觉更加客观、可靠。目前已在食品新鲜度、食用油变质判别、果蔬成熟度检测、茶叶产地品种识别、酒类品牌界定等方面开展了相关研究。 

蜂蜜中含有300多种芳香物质,因此它是研究智能嗅觉表征的重要样例;同时不同蜜源、不同产地其风味物质各异,并且蜂蜜掺假与否或品质优劣能在整体香气上有所体现,使得香气成为蜂蜜品质检测与掺假鉴别的重要指标之一;充分说明采用智能嗅觉表征蜂蜜品质具有可行性,也为蜂蜜品质检测及掺假鉴别提供了一种快速、经济、准确且利于实时应用的检测方法。因此选择蜂蜜作为研究对象具有实用意义,对其行业健康发展更具深远价值。 

采用电子鼻进行产品品质判别或掺假鉴别分析,其本质是利用智能嗅觉图谱的整体香气信息,寻找样品间的差异性,其核心是寻找代表样品间差异性的图谱信息,即“差异化信息”,也叫“智能嗅觉的差异化图谱信息”。但是电子鼻的传感器阵列具有交叉敏感性,即每根传感器对每个香气都有不同程度的响应,因此通过电子鼻采集的呈香物质图谱具有广谱、重叠等特点,很难单独用肉眼从图谱上区分不同样品,需要进行“信号挖掘”,特别是“代表样品间差异化信息的挖掘”,挖掘的差异性化信息越多,就越有助于快捷的区分产品特征与品质。但目前在差异化信息挖掘方面还很薄弱,也是制约电子鼻发展的瓶颈。 

发明内容

一种基于遗传算法的支持向量机分类器参数选择的蜂蜜检测方法,根据我国地理区域西部、华南、华北、华东、东北的划分,选择5种不同蜜源作为研究样本,分别为:1)油菜蜜,采自西部地区的重庆涪陵区和永川区;2)荔枝蜜,采自华南地区的广西南宁;3)荆条蜜,采自华北地区的北京密云等地;4)洋槐蜜,采自华东的山东莱阳;5)椴树蜜;利用气敏传感器阵列与不同挥发性成分的吸附差异对待测样品蜂蜜进行检测,其特征在于所述遗传算法的基本运算过程如下: 

1)数据初始化:设置最大进化代数,随机生成的个体数及其所构成的群体;

选择个体数20个,最大迭代次数100代;

2)个体评价:计算群体中各个个体的适应度,所述适应度为样本分类的准确率;

3)选择运算:利用选择算子对群体中的各个个体进行随机选择;

其中利用轮盘赌法结合个体评价的准确率对个体进行选择,从而将适应度较高的个体信息可以遗传到下一代;

4)交叉运算:利用交叉算子对个体中的个体进行叠加重组,从而产生新的个体,集成上代个体中的特征信息;

5)变异运算:利用变异算子对个体按概率进行随机变异,保证了新个体的产生;

群体经过选择、交叉、变异运算之后得到下一代群体;

6)终止判断:若迭代次数达到最大代数或适应度达到所需要求则停止迭代;

优化后训练集的准确率为96.25%,c=3.2277,r=0.1354,在此条件下,判别准确率为97.4684% ,即蜂蜜样本77/79,其中油菜蜜23/23,椴树蜜16/17,洋槐蜜38/39。

附图说明

  

图1 异常点剔除结果:(a)马氏距离判别结果;(b)杠杆值判别结果;

图2 基于方差比的特征提取结果

图3 基于单项量判别的特征点提取结果

图4 蚁群算法流程图

图5 基于蚁群算法的特征提取结果

图6 基于核主成分分析的特征点提取结果

图7 基于独立成分分析的特征点提取结果

图8 基于网格搜素的支持向量机参数优化结果

图9 基于遗传算法的支持向量机参数优化结果

图10 基于粒子群算法的支持向量机参数优化结果

具体实施方式

  

1 关于样本收集与制备

为使所研究的蜜源差异具有代表性,根据我国地理区域(西部、华南、华北、华东、东北)的划分,选择5种不同蜜源作为研究样本,分别为:1)油菜蜜,采自西部地区的重庆涪陵区和永川区;2)荔枝蜜,采自华南地区的广西南宁;3)荆条蜜,采自华北地区的北京密云等地;4)洋槐蜜,采自华东的山东莱阳;5)椴树蜜,采自东北的吉林敦化及黑龙江哈尔滨等地。为保证实验样本的真实性和准确性,避免市场商业蜜加工工艺的干扰,样品通过中国农业科学院蜜蜂研究所直接由蜂农处购得。

样品采集后按照不同蜜源、不同产地分别置于不同试剂瓶中。为确保研究不受检测条件差异的干扰,样品采集后储存于-18℃条件下,待所有样品采集完毕后统一进行试验。实验前,样品从-18℃下取出后,5种蜜源样品各取60g左右,置于40℃恒温水浴箱中,水浴加热15min,使蜂蜜样品融化,剩余样品继续置于-18℃下保存。水浴加热时为保证样品融化完全,无结晶,水浴时需每3min震荡一次。样品水浴完成后,取出置于室温下冷却1h以上,直至样品温度与室温(20℃)一致。 

  

2 电子鼻检测方法

电子鼻利用气敏传感器阵列与不同挥发性成分的吸附差异对待测样品蜂蜜进行检测。蜂蜜挥发性成分与传感器特征吸附(包括物理吸附与化学吸附)后,改变半导体传感器表层电流强度。通过数字转换,获得各样品的响应曲线,从而对样品进行检测分析。本发明采用Fox 4000型 电子鼻(Alpha MOS, France),该电子鼻由18根金属氧化物半导体气敏传感器(MOS)与HS100顶空自动进样器组成。

仪器具体操作流程如下: 

1)将水浴后冷却至室温的蜂蜜样品根据要求加入容积为10ml的顶空瓶中。将装好样品的顶空瓶置于托盘上。HS100自动进样器最多容纳2个托盘,每个托盘可放置32个顶空瓶。

2)根据要求设定仪器检测条件,包括顶空制样条件和电子鼻检测条件。根据蜜源种类和检测顺序,对托盘上各顶空瓶进行编码。 

3)顶空瓶根据设置的条件被放入顶空室内进行加热,加热时顶空瓶间歇震荡,保证顶空气体均一性。顶空制样结束后,抽取顶空气体,注入检测器中,并将顶空瓶从顶空室内取出。Fox 4000为连续型气流注射,气体进入检测气后与各传感器发生吸附与解吸附反应,并各自生成响应的响应曲线。 

单一样品可获得18(18根传感器)*t(检测时间)的信号矩阵。传统方法将各传感器的最大(小)值作为该传感器的响应值进行分析。 

  

3 基于电子鼻信息的蜂蜜品质建模方法

利用提取出的电子鼻特征信息建立支持向量机判别模型,对不同蜜源的样本进行分类。传统的模式识别方法是建立在大量样本基础上的渐进理论,但实际生产应用中个,由于各方面条件的限制,大量的样本数往往难以得到较好的保证,在小样本的条件下,根据传统的统计学基础,很难取得较理想的学习效果和泛化效果。但支持向量机适用于小样本条件下的建模需求,由此对不同蜜源样本进行模式识别判定。

支持向量机(Support Vector Machine,SVM)理论是Vapnik(1995)在传统的统计学习基础上,结合结构风险最小化原则,针对有限样本的特点所提出的。该方法可以有效减少传统模式识别模型中参数设定的随意行,克服了模型建立过程中经验风险与期望风险发生较大差别的不足,具体SVM理论如下。 

在模式识别中,求出一个最优化函数f(x,w),使其在对未知样本集(xi,yi)(i=1,2…,n;y 为样本标号)进行评估时,期望风险R(W)最小: 

其中,F(x,y)为联合分布概率,L(y,f(x,w))是用f(x,w)对y进行预测而造成的损失,称为损失函数,对于两类模式识别问题,L可以定义为:

传统学习方法中,采用的是经验风险Remp(W)最小化原则,即

但事实上,训练误差的最小化难以保证预测的最佳效果,往往容易出现过拟合的现象,同时,经过进一步的研究表明,经验Remp(W)与实际风险R(W)存在以下关系:

简写为

其中h为函数的VC维,η为置信水平,n为训练样本数目。

由上式可以看出,为使设计的分类函数实际风险最小,不但要使经验风险尽量减小,同时还要增大训练集数目或降低函数VC维,才能降低实际风险。这种思想即为结构风险最小化原则。 

基于以上理论,在对样本集(xi,yi)(i=1,2…,n; x为样本i的特征向量,y为样本标号)进行判别时,寻找判别函数,对W和b进行归一化并等比例调节后,使对于所有样本都能满足,此时两类样本的分类距离间隔为。因此为获得更好的分类预测效果,应使两类样本尽可能分开,即求的最小值。满足的点,里分类平面距离最小,他们决定了最优分类函数,这些点称之为支持向量(Support Vector,SV)。 

在该条件下,对最优分类函数的问题可以转化为优化问题: 

优化问题转化为对偶问题则可表示为:

其中αi为对于约束条件(7)的拉格朗日(Lagrange)因子,i=1,2,…n,W为分类函数的斜率,b为分类函数的截距。

对于线性不可分问题,V.Vapanik引入核函数理论,即在低维空间将数据通过非线性映射投影值高维空间中,可以证明,如果选择适当的核函数,可以将低维空间中线性不可分的数据转化为高维空间中线性可分的数据。引入核函数后,原方程可以转化为: 

其中K为所选的核函数。

通过求解核函数,最终可以确定相对应的分类函数: 

SVM整体的模式识别步骤可以总结为一下几步:

(1)选择适当的核函数K;

(2)求解对应的优化方程,获得支持向量;

(3)获得最优分类函数f(x)

(4)根据sgnf(x)的值确定判别的类别;

4 电子鼻检测蜂蜜中的参数优化

4.1确定待优化参数及水平

电子鼻检测参数可以分顶空参数和检测参数。其中检测参数又可分为进样参数和信号采集参数。考虑到检测参数反应的为仪器的检测特点,当仪器稳定时,其对检测结果的影响较小。顶空参数则影响样品顶空气体的生成,而顶空气体则为电子鼻的直接检测对象,即直接影响最终的检测结果。因此,本发明中着重对顶空参数进行优化。电子鼻的顶空参数主要包括顶空温度和顶空时间,同时考虑到顶空瓶中不同样品量的差异也会影响最终的检测结果,因此最终选择样品量、顶空温度和顶空时间为优化对象。为选择最优组合,利用正交实验对三因素进行优化。在对各因素的不同水平进行选择时,考虑到顶空瓶(10ml)在顶空室内需要震荡加热,为防止进样针触及液体样品而影响仪器性能,样品最大量不可超过顶空瓶的1/2。根据蜂蜜的密度(约为1.4g/ml),确定顶空进样量的三个水平分别为4g、5g、6g。在顶空温度的水平选择中,根据参考文献,蜂蜜样品在高于68℃条件下性质易发生变化,因此所选择的三个水平分别为40、50、60℃。顶空时间选择中,考虑大样本量检测的速度要求、蜂蜜样本在高温环境下的短时间稳定性,以及蜂蜜样品的易挥发性特点,选择较短的顶空时间,三个水平分别为120s,180s、240s。最终确定三因素三水平的优化条件,即样品量4g、5g、6g,顶空温度40、50、60℃,顶空时间120s,180s、240s,各因素及水平如表1所示。研究所选择的蜂蜜样品为5种不同蜜源蜂蜜样品,分别为油菜蜜、洋槐蜜、荆条蜜、荔枝蜜、椴树蜜,每类蜜源6份样品,共计30份样品。

实验所选择的正价实验表为L9(3)4,实验表设计如表2所示 

其余检测条件如表3所示

4.2 优化确定的评价指标与方法

本发明以不同蜂蜜样本间信号差异最大化为导向,选择最佳区分效果的电子鼻检测条件。通过优化检测条件,期望同类蜂蜜样本间信号稳定,而不同类蜂蜜样本间差异较大,从而保证蜂蜜样品间电子鼻信号差异的最大化。

(1)同类样本稳定性评价指标 

正交实验中,每组实验下5种蜂蜜各取3份样品,通过计算该实验条件下电子鼻18根传感器对各类样本信号的标准差均值,来衡量该条件下电子鼻对同类样本信号检测的稳定性。计算方法如公式15、16所示

其中p为蜜源种类、Ck为第k类样本的稳定性、m为电子鼻传感器个数,nk为k类蜜源中样本的个数,为k类蜜源样本中第i个样本j根传感器的响应信号,为k类蜜源样本在第j根传感器的响应信号均值。     (2)不同类样本的差异性

不同类样本的差异性根据不同类蜜源样本在同一条件下样本均值的方差计算得到,计算方法如公式17所示

                   (17)

其中 为k类样本的信号均值,  为所有样本的信号均值

 (3)总体评价指标

    研究所期望获得的最佳优化条件为同类样本间信号稳定,而不同类样本间具有较大的差异。因此,最终确定的评价指标q如公式18所示

4.3 基于蜂蜜样品间信号差异最大化的电子鼻参数优化结果

以确定的评价指标作为正交实验的观测值,正交实验结果如表4所示

从表4中可以看出,三种因素对电子鼻区分效果均有一定的影响。其中因素A、因素B,即样品量和顶空温度与信号区分度成正比,因素C及样品顶空时间无信号区分度成反比,而空白对照组变化相对较小。这是由于样品量和顶空温度的增加,顶空瓶中待测样品的挥发成分浓度逐渐增高,可供区分的特异成分含量增加,区分效果较好。而随着顶空时间的增加,在温度较高的环境下,样品挥发性成分性质发生改变,该类变化影响了样本类别的区分,因此区分效果下降。对照组稳定表明同类样本多次间无明显差异,检测结果可靠。为进一步对正交实验结果进行分析,对实验结果进行方差分析,方差分析如表5所示。

由方差分析的结果中可以看出,三个因素均对样本的区分度有显著影响,其中因素A和因素B显著性较大(P<0.01),三种因素的方差贡献率分别为65.34%,22.16%和9.66%。此结果表明样品量和顶空温度对样本区分度影响较大,而顶空时间对样本区分度影响较小。 

综合以上结果,选择最佳优化组合条件为A3B3C1,即样品量6g,顶空温度60℃,顶空时间120s,此条件下获得的不同类样本区分效果最佳。 

  

5 电子鼻检测蜂蜜中的异常样本点剔除

5.1 异常样本点剔除原理

在对蜂蜜的电子鼻信号进行正式分析和蜂蜜品质建模前,为保证分析结果和模型的稳定性,需要对蜂蜜整体样本中的异常样本进行剔除,保证获得信号及样本信息的准确性和可靠性。电子鼻检测蜂蜜中的异常样本包括样本信息的异常(如样本编号、类别)和检测结果的异常。异常样本常常容易影响整体信号的变化趋势,破坏分类模型的稳定想。因此对异常样本的剔除是十分有必要的。

导致电子鼻异常样本的因素主要包括以下几点:(a)样品采集的误差主要以采集样本的错分,错误编码为主;(b)样本储藏期性质的变化,由于样本由采集到检测分析具有一定的间隔,在此间隔下,一些不稳定的样本容易发生化学、物理性质的变化;(c)操作的失误,包括称样的误差、容器的洁净度等;(d)仪器检测的误差,由于检测环境和传感器性质的变化,即使通过信号的前处理,仍有难以完全对检测信号进行校正,仍有部分信号与总体平均信号有显著性差异。 

为获得较大的样本量,本发明针对目前市场占有率较大的三种蜜源蜂蜜进行分析,油菜蜜、椴树蜜和洋槐蜜,研究对于大量样本中的异常样本点的分析与剔除。其中76个油菜蜜、56个椴树蜜、112个洋槐蜜,共计244个样品。该组样品同样应用与7、8的研究中。 

5.2 异常样本点剔除方法 

(1)马氏距离判别

马氏距离(Mahalanobis)是多维空间中向量集中程度的评价指标,是多元数据异常值检测的一种重要方法。马氏距离通过计算样本数据的均值向量和协方差矩阵比较样本信号之间的偏离程度,具体计算方法如下:

其中样本均值向量,S为样本协方差矩阵。为样本的马氏距离均值,为马氏距离标准差,λ为接受范围的阈值,xt为第t个样本的特征向量,T为特征向量均值。本发明中设定硬阈值λ=3。为该阈值条件下可以接受的马氏距离范围。

(2)杠杆值判别 

样本杠的大小体现模型对该样本的依赖程度,杠杆值越大,依赖越大,对模型影响越大。通常位于待分析性质两端的样本具有较大的杠杆值。过大的杠杆值对模型有较大影响,不利于模型的稳定。通过对样本杠杆值的分析,剔除对模型影响较大的特殊样本,从而增加模型的稳定性。杠杆值判别具体方法如下:

1、通过PCA计算待测样本的得分矩阵T;

2、计算测试矩阵H:;

3、各样品的杠杆值hi :hi为测试矩阵H中第i个对角向量,;

与马氏距离判别类似,杠杆值判别通过设定硬阈值,去除具有较大杠杆值的特殊样本点,从而保证后期预测模型的稳定性。

5.3 蜂蜜电子鼻检测中的异常样本点剔除效果检验 

为对样本剔除效果进行验证,选择贝叶斯(Bayes)判别方法对异常点剔除前后判别模型的准确率进行评价,相比与其他模式识别方法,Bayes判别方法更为简单,无需对相应参数进行优化。Bayes判别的基本思想是假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验概率分布来描述这种认识。然后基于抽取的样本再对先验认识作修正,得到所谓后验概率分布,而各种统计推断都基于后验概率分布来进行。贝叶斯判别不同于经典的统计方法,它的一个显著特点就是在保证决策风险尽可能小的情况下,尽量应用所有可能的信息。

图1为分析样本(76份油菜蜜、56份椴树蜜、112份洋槐蜜)的马氏距离判别(a)和杠杆值判别结果(b)。利用马氏距离判别,共剔除36、53、76、79、85、99、117、240、244,共计9个异常点;而杠杆判别共剔除36、79、216、240、244共5个异常点。 

采用Bayes判别对两种异常点方法处理后的数据进行模式识别预测,预测结果如表6所示。通过表6发现,相比杠杆判别,马氏距离判别剔除的异样样品点更多,但准确率并无太大区别。此结果表明马氏距离多剔除的异常样本点,虽然与样品的总体分布相比相差较大,但对并未对判别的结果准确率造成较大影响,因此,为了充分考虑到样本的全部特性,选择杠杆判别,剔除5个样品点,即第36、76、216、240、244五个异常样本,其中油菜蜜、椴树蜜各1个、洋槐蜜3个。 

6 蜂蜜特征香气分析及蜂蜜香气模拟体系建立 

应用动态顶空(Itex)结合循环富集技术提取蜂蜜呈香物质,在色谱柱末端进行1:1香气含量分配后,应用气质联用(GC-MS)与气相色谱-嗅觉测定(GC-Olfactometry,GC-O)技术同时测定其挥发性呈香成分和嗅感特征。结晶蜂蜜进行水浴加热,然后迅速冷却至室温,并保持室内恒温状态采集呈香物质。

其中GC-MS中,利用质谱(谱库检索)、相对保留指数(RI)和嗅闻三种方法确定蜂蜜的挥发性成分,并进行内标法定量。GC-O技术是采用频率检测和检测强度相结合的方法,由5名优选嗅辨员组成的GC-O评价小组,确定分别代表蜂蜜头香、前端香气、体香和尾香四个挥发阶段的特征风味活性香气。 

根据四个挥发阶段的特征香气种类及含量比例,配比构建基本蜂蜜香气模拟体系A。在体系A的基础上,构建与其有差异性的四组体系。每组体系与基本体系A的差异体现在两个方面,即在某个挥发阶段要么其特征香气含量不同,要么其特征香气组分不同,而其他三个阶段的香气组分与含量都不变。 

  

7 表征蜂蜜差异性的智能嗅觉图谱特征提取

7.1 基于方差比的特征提取方法

对每根传感器的各个信号点计算其样本中间方差和种内方差比,根据方差比的大小对信号点进行选择。方差的计算方法同优化条件中的评价指标q。同其他嵌入式特征选择不同,方差比选择直接通过比较各信息点下,种间方差与种内方差比来对信息点进行选择,不需借助其他模式判别的方法,因此该方法的选择结果不会因选择不同模式识别方法而发生改变。但方差比法属于穷举法,对大样本的运算量较大。

图2显示个信号点的方差比值。从图中可以发现,方差比较大即中间差异较大的信息点集中在900-1200和1800-2160,第8到第10、第15-第18传感器。对于同根传感器,方差差异较大点集中在检测时间为20s到35s的信号点中。此时间段内主要为挥发气体与传感器的吸附时间,而各传感器的检测后期的信号点即解吸附时间点内差异较小。实验选择方差比大于1的信号点作为特征点,满足此条件的信号点其所携带的信息可以反应不同样品间的差异,共选择798特征点。在此条件下,利用SVM判别模型按建模集验证集比为2:1的比例进行预测,最终判别结果为89.8734% (71/79,其中油菜蜜21/23,椴树蜜14/17,洋槐蜜36/39)。 

7.2 基于单项判别法的特征提取方法 

对所有特征点逐个进行模式识别,比较当每个信号点作为单一特征时判别准确率的差异。该方法将模式识别方法嵌入特征选择中,通过结合判别方法,可以获得各信号点对样品预测的能力。与前一种滤波方法不同,该方法对所选择的模式识别方法较依赖,选择结果会随判别方法的改变发生一定变化。本研究中选择的判别指标为Bayes判别法

从图3发现,与方差选择结果不同,单向量选择中不同传感器间准确率的差异较小,而同根传感器内不同检测时间下的信息点间的差异较大。但不同传感器内时间点Bayes判别准确率的变化趋势与方差比变化趋势大致一致,即检测初期信号判别准确率较高,集中于各传感器的前30s检测时间内,而检测后期的效果则较差。选择判别准确率大于60%的信号点作为特征点,共598特征点,利用svm进行验证。SVM预测准确率为84.8101% (67/79,其中油菜蜜20/23,椴树蜜13/17,洋槐蜜34/39)。

7.3 基于蚁群算法的特征提取方法 

前两种算法均为穷举式选择方法,需要对各个特征点进行逐个计算。当特征点较多时,计算量会非常大,这也从根本上限值了其对于大量信号点的特征提取。蚁群算法属于启发式特征选择方法,利用算法的自动迭代进化,对特征点选择进行自动寻优,直到获得最优结果。

蚁群算法(Ant Colony Optimization, ACO)最初应用于旅行商的路径选择问题,即对最短路径进行优化。本实验中将蚁群算法应用于特征点的选择。算法模拟遗传算法,利用二进制编码对各传特征向量进行编码,1代表选择该信息点,0代表舍弃该信息点。利用各特征点选择后的Bayes判别准确率以及所选择的特征点数为适应性函数,寻求最优的向量组合。该算法主要创新点包括:(a)将特征点选择数加入适应函数中,并设定代价参数,通过参数调节,可以根据需要对特征点数和判别准确率进行取舍;(b)为避由于特殊点导致的更新方向错误,设置最优集,以最优集合代替单一最优点进行选择;(c)信息素更新程度与适应函数提高成正比,算法优化效果好,则更新幅度增大;(d)为加快计算速度,对效果较差的向量加快挥发速度,减小信息素浓度,减小其对后期计算干扰。算法流程如图4所示。 

蚁群算法中,各参数选择如下:最终选择蚁群规模(m)=20;信息素挥发浓度(rho)=0.003;优秀蚂蚁集(n1)=3;差蚂蚁集(n2)=3;特征数惩罚比例(A)=400;下图为最终一代时信息素的浓度。 

   从图5中可以看出,蚁群算法所选择的特征点多集中于1000附近和1500至2160,即第9、第15-18根传感器的信号点。从结果中可以看出,启发类算法由于是自动进化类算法,虽然算法具有一定的随机性,但对对特征信信号的整体分布有较好的选择。在此条件下,最终选择特征点数206,判别准确率为94.94%(75/79,其中油菜蜜22/23,椴树蜜16/17,洋槐蜜37/39)。蚁群算法结果相比前两种穷举算法,判别准确率有一定的提升,同时所选的特征信号点更少,更具有代表性。 

7.4 基于核主成分分析的特征提取方法 

前三种提取方法仅对信号本身进行筛选,此类方法所选择的特征点具有一定的化学意义,结合化学结果可以较好的进行解释。但毕竟一些舍弃的向量中所携带着一些已选向量不具备的信息,难以保证后期判别的准确率。除直接提取外,利用降维方法,通过矩阵变换,将数据信息进行压缩,将有效信息进行富集,可以显著减少特征信号数量。本研究中选择了核主成分分析和独立成分分析两种降维方法进行提取。

核主成分分析(Kernel Principal Component Analysis,KPCA)将核函数引入主成分分析(Principal Component Analysis,PCA)中。KPCA利用核函数,将数据投影至高维空间中。由于数据投影后相互间更加分散,因此可以将一些在低维空间中不可分的信号进行区分,并提取更具有代表性的特征进行提取。本实验中KPCA选择径向基核函数。 

KPCA下,不同主成分数的SVM预测准确率如图6所示。图6显示将原始信号经KPCA降至不同维数下,预测集的准确率。从图中可以看出,SVM判别准确率先随维数增加而增加,之后出现短暂平台期,在25至30维时,判别准确率随维数增加而显著增加,之后准确率相对稳定,100维后,样本的准确率随维数增加而减少。该变化规律表明,在维数较低阶段,各特征向量均携带有样本准确分类信息,且信息间冗余成分较少,增加维数有助于提高判别准确率。当50维后,个特征量间的信息出现冗余、覆盖,此时维数的增加对提升判别准确率的影响下降。当后期时,特征间的冗余已影响到了判别效果,因此此时判别准确率开始下降。最终选择当维数d=81时,预测准确率最高,为93.67(74/79,其中油菜蜜22/23,椴树蜜15/17,洋槐蜜37/39)。 

7.5 基于独立成分分析的特征提取方法 

   主成分分析(包括核主成分分析)均是根据数据间方差最大化进行分类,即数据的二阶矩,但忽略了数据在高阶矩上的独立性。独立成分(Independent components analysis, ICA)则利用计算数据间的高阶矩对矩阵进行变换,可进一步减小特征向量间的相关行,增强信号压缩效果。

本实验采用的ICA方法为fastica。在算法进行前对数据进行白化处理。不同独立成分下svm判别准确率如图7所示 

ICA的整体变化趋势与KPCA类型,但变化相对缓和,且准确率达到稳定时所需的特征维数较KPCA少。结果表明,当独立成分为14时,判别准确率为94.94%(75/79,其中油菜蜜22/23,椴树蜜16/17,洋槐蜜37/39)。

  

8 支持向量机分类模型优化方法的建立

本研究利用SVM分类器作为不同蜜源样品的分类模型。其中,所选择的核函数为径向基核函数(RBF)为:

其中r为RBF函数的形状参数,xi与xj为样本集中的两个样本。

  

相比与其他核函数,选择RBF主要有以下两种原因:1)RBF可已完成线性到非线性的映射,通过数学变换可以证明线性核函数仅为RBF的一种特例;2)相比于多项式核函数,RBF参数较少,模型相对较简单,这也保证了模型的稳定性。

同时,考虑到难以要求所有训练点满足约束函数(7),对训练点引入松弛变量ξ,则约束函数(7)可变为 

                       (22)

则松弛变量ξ=(ξ1,ξ2,ξ3,…ξn)’,体现了所有训练集被错分情况。因此引进惩罚函数c作为平衡类间间隔和错分程度的权重值,则优化函数(6)可以转换为

                      (23)

在以RBF为核函数的SVM分类器中,不同参数(形状参数r和惩罚参数c)下的分类效果有较大差异,因此,本研究利用不同优化方法,对RBF的中r以及惩罚参数中的惩罚系数进行了优化。本研究中选择的数据为7中经ICA降维后的数据。

具体优化流程如下: 

1、按比例划分训练集与验证集,比例为2:1。将训练集按照五折交叉验证方法,即将训练集分为互不交叉的5个子集,轮流选择其中的4个子集进行参数训练,以剩余的一个子集对选择的参数进行验证,计算不同参数下训练集的分类准确率。

2、根据选定的核函数,设定核函数参数r及惩罚参数c。 

3、以所选的参数按照1中五折交叉验证法对模型进行训练,并计算不同参数下模型的准确率。 

4、判断模型准确率是否达标,否则更改参数值。 

5、重复2、3、4步,直至获得最佳模型判别率,或达到迭代终止条件。 

本发明中利用不同的参数搜索方法,对步骤2中形状参数r与惩罚参数c进行优化,最终获得最优模型。 

8.1基于网格优化的SVM参数选择 

网格优化利用穷举法,在预先估计的取值范围内按一定的步长对范围内的所有点进行逐个搜索,确定最终最优参数。以2为底数,在2-4到210间对r和c进行穷举搜索。当c=5.2780,r=0.1088时,训练集样本判别准确率最高,为96.25%如图8所示。在此条件下,建立模型,利用预测集进行检验。最终判别准确率为96.20% (76/79,其中油菜蜜23/23,椴树蜜16/17,洋槐蜜37/39)。

8.2基于遗传算法的SVM参数选择 

遗传算法(Genetic Algorithm,GA)通过借鉴生物进化理论对数据进行启发式搜索,该算法最早由美国的J.Holland教授1975年首先提出。遗传算法的基本运算过程如下:

1)数据初始化:设置最大进化代数,随机生成的个体数及其所构成的群体。本研究中选择个体数20个,最大迭代次数100代。

2)个体评价:计算群体中各个个体的适应度,本研究中适应度为样本分类的准确率。 

3)选择运算:利用选择算子对群体中的各个个体进行随机选择。本研究中利用轮盘赌法结合个体评价的准确率对个体进行选择,从而将适应度较高的个体信息可以遗传到下一代。 

4)交叉运算:利用交叉算子对个体中的个体进行叠加重组,从而产生新的个体,集成上代个体中的特征信息。 

5)变异运算:利用变异算子对个体按概率进行随机变异,保证了新个体的产生。 

群体经过选择、交叉、变异运算之后得到下一代群体。 

6)终止判断:若迭代次数达到最大代数或适应度达到所需要求则停止迭代。 

优化后训练集的准确率为96.25%,c=3.2277,r=0.1354,如图9所示。在此条件下,判别准确率为97.4684% (77/79,其中油菜蜜23/23,椴树蜜16/17,洋槐蜜38/39)。 

8.3基于粒子群算法的SVM参数选择 

粒子群优化算法(Particle Swarm Optimization,PSO)与遗传算法类似,都是通过初始化随机个体,但PSO中各初始种群不经过后期交叉与变异,而是通过计算当前个体适应度函数值与群体最优适应值间差距进行个体更。相比GA,PSO中对优化方向的引导仅受最优个体影响,而并非所有个体进行交叉互换。因此,PSO的收敛速度较GA有较大改善。本实验中选择迭代200代,粒子群数20。图10为PSO优化结果

优化结果为:训练集最高准确率为91.25%,c= 32.3362,r= 0.0100。此条件下,预测准确率为88.61%(71/79,其中油菜蜜21/23,椴树蜜14/17,洋槐蜜36/39)。

相比于遗传算法,粒子群算法收敛更快,在6代左右就达到最优点。但其优化效果较差,很大原因是由于群体最优值代表性较片面,陷入了局部最小点。从网格算法的结果中可以看出,不同参数下SVM判别准确率函数并非是单一的凸函数。因此,在此条件下,虽然GA收敛速度较慢,但考虑到全局个体,优化效果较PSO较好。 

三种优化算法中,网格算法需要一定的先验条件,如大致确定r和c的取值范围以及搜索的步长。当范围较大或步长小时,搜索效率下降。相比而言,GA算法优化效果更佳,在14代左右即可达到最优解,同时优化后的预测准确率(77/79)较最初的(75/79)有一定的提高。 

研究最后确定利用遗传算法结合支持向量机模式识别方法,对获取的电子鼻传感器信号进行分类判别,经过优化后,最终判别准确率为97.46%。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号