首页> 中国专利> 基于多核Fisher判别分析的电子鼻特征选择优化方法

基于多核Fisher判别分析的电子鼻特征选择优化方法

摘要

本发明公开了一种基于多核Fisher判别分析的电子鼻信号特征选择优化方法,首先获得样本特征矩阵,初始化参数并根据参数构建基本核函数,然后基于基本核矩阵计算出复合核矩阵,计算出复合核矩阵在高位特征空间的投影,之后将投影送入分类器进行模式识别,确定出识别率最高的核函数,最后基于该核函数计算新样本矩阵在特征空间中的投影并将其作为电子鼻信号作为分类器的输入进行模式识别。其显著效果是:克服了单一核函数方法实现高维投影以后数据区分度不佳的问题,解决了传感器之间的冗余,优化了传感器阵列和减少了数据维数,提高了电子鼻信号的识别率,从而为医生选择适当的治疗方法提供有益指导。

著录项

  • 公开/公告号CN104504407A

    专利类型发明专利

  • 公开/公告日2015-04-08

    原文格式PDF

  • 申请/专利权人 西南大学;

    申请/专利号CN201410789417.0

  • 发明设计人 闫嘉;段书凯;王丽丹;贾鹏飞;

    申请日2014-12-17

  • 分类号

  • 代理机构重庆为信知识产权代理事务所(普通合伙);

  • 代理人余锦曦

  • 地址 400715 重庆市北碚区天生路1号

  • 入库时间 2023-12-17 04:57:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-02-13

    授权

    授权

  • 2015-05-06

    实质审查的生效 IPC(主分类):G06K9/64 申请日:20141217

    实质审查的生效

  • 2015-04-08

    公开

    公开

说明书

技术领域

本发明涉及到电子鼻信号处理技术领域,具体地说,是一种基于 多核Fisher判别分析的电子鼻特征选择优化方法。

背景技术

电子鼻是利用气体传感器阵列的响应图谱来识别气味的电子系 统,它可以在几小时、几天甚至数月的时间内连续地、实时地监测特 定位置的气味状况。

医用电子鼻是一种特殊的电子鼻系统,它可以通过检测患者呼出 的气体或伤口顶部空间的气体,实现疾病或伤口感染的诊断。具有响 应时间短,检测速度快,成本低,操作简单方便,且具有人工智能的 优点,因此获得了广泛的关注和应用。

电子鼻特征提取以后都需要作为分类器输入进行模式识别,但是 由于传感器阵列包含了冗余信息,有必要对提取的特征进行选择优 化。

目前,针对电子鼻信号特征选择优化方法主要有两类:1、基于 主成分分析或者Fisher判别分析等线性处理方法对电子鼻信号特征 进行线性变换,实现降维,或者使用核方法与一些线性处理方式结合 实现非线性降维,如核主成分分析、核Fisher判别分析;2、利用智 能优化算法如遗传算法、粒子群算法等对整个特征进行加权,实现降 维或者重要性系数加权。

然而,上述电子鼻信号特征选择优化方法存在以下不足之处:1、 主成分分析或者Fisher判别分析等线性处理方法对非线性问题效果 不佳,即使是用核方法可以解决非线性问题也是用单一核函数,没有 涉及复合核函数,在高维投影以后数据区分度不佳;2、智能优化算 法具有随机性,理论不严密,同时结果受太多因素影响,重复性较差。

发明内容

针对现有技术的不足,本发明的目的是提供一种基于多核Fisher 判别分析对电子鼻信号处理方法,采用该方法进行特征选择优化,能 够解决单一核函数方法实现高维投影后数据区分度不佳的问题,以及 解决传感器之间的冗余问题。

为达到上述目的,本发明表述一种基于多核Fisher判别分析的电 子鼻特征选择优化方法,其关键在于按照以下步骤进行:

步骤1:步骤1:对电子鼻信号样本进行特征提取得到样本特征 矩阵X,并表示为X=[x1,x2,…,xN],其中xj表示第j个样本,j=1~N, N为样本总数,N个样本分为C类,第i类的样本数为Ni,i=1~C, 则有N=Σi=1CNi;

步骤2:初始化参数σ1与σ2,并根据参数σ1和σ2分别构建一个基 于所述样本特征矩阵X的基本核函数k1(xm,xn)和k2(xm,xn), m=1~N,n=1~N,然后分别计算基本核矩阵

K1=k1(x1,x1),k1(x1,x2),...,k1(x1,xN)k1(x2,x1),k1(x2,x2),...,k1(x2,xN).........k1(xN,x1),k1(xN,x2),...,k1(xN,xN),

K2=k2(x1,x1),k2(x1,x2),...,k2(x1,xN)k2(x2,x1),k2(x2,x2),...,k2(x2,xN).........k2(xN,x1),k2(xN,x2),...,k2(xN,xN),

其中K1和K2均为N×N的矩阵;

步骤3:初始化参数p,其中p为(0,1)之间的常数,按照 K=pK1+(1-p)K2计算出高维特征空间内的核矩阵K;

步骤4:求解广义特征方程(KBK)α=λ(KK)α,计算特征值λ 对应的特征向量α,其中,Bi=1Ni[1]Ni×Ni是元素 均为的Ni×Ni矩阵;

步骤5:根据获得的特征向量α按照A=[α12,...,αC-1]构建投影矩 阵A,则样本特征矩阵X在高维特征空间内向特征向量构成的子空间 的投影为Y=ATK;

步骤6:将样本特征矩阵X的投影Y=ATK作为电子鼻信号特征 进行模式识别,并在识别过程中用量子粒子群优化算法分别对参数p、 σ1、σ2以及分类器参数进行同步优化,确定出最高分类识别率对应 的核函数及分类器参数;

步骤7:输入一个新的电子鼻数据z,并基于该核函数计算新样本 z在高维特征空间中的投影g=ATk(x1,z)...k(xN,z),然后将投影g作为分类 器的输入进行模式识别。

本发明采用复合核Fisher判别分析对电子鼻信号进行特征选择 优化,解决单一核函数方法实现高维投影以后数据区分度不佳的问 题,最终解决了传感器之间的冗余,实现了更好的分类;采用量子粒 子群优化算法进行参数优化,能够优化传感器阵列和减少数据维数, 从而降低运算难度,减少运算量。

更进一步的,所述基本核函数k1(xm,xn)与k2(xm,xn)均为高斯径向 基核函数,其中,k1(xm,xn)=exp(-||xm-xn||2/2σ12), k2(xm,xn)=exp(-||xm-xn||2/2σ22)。

更进一步的,所述基本核函数的个数不限于两个k1(xm,xn)与 k2(xm,xn),可以取l个基本核函数,2≤l<∞,即 k(xm,xn)=p1k1(xm,xn)+p2k2(xm,xn)+…+plkl(xm,xn), 其中加权系数之和p1+p2+…+pl=1。

更进一步的,所述基本核函数的形式不限于为高斯径向基核函数, 基本核函数可以取以下几种:

(1)线性核函数k(xm,xn)=xmTxn;

(2)多项式核函数k(xm,xn)=(xmTxn+t)d,其中t和d为核参数;

(3)高斯径向基核函数k(xm,xn)=exp(-||xm-xn||2/2σ2),其中σ为 核参数;

(4)多层感知机核函数其中t和s为 核参数,tanh(·)为双曲正切函数。

本发明的显著效果是:采用复合核Fisher判别分析对电子鼻信号 进行特征选择优化,克服了单一核函数方法实现高维投影以后数据区 分度不佳的问题,并解决了传感器之间的冗余,能够实现更好的分类; 采用量子粒子群优化算法进行参数优化,能够减少数据维数,从而降 低运算难度,减少运算量;特别针对伤口感染检测而言,提高了电子 鼻信号的识别率,从而为医生选择适当的治疗方法,促进伤口快速恢 复提供了有益指导。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步 详细说明。

本实施例中所使用的电子鼻数据采集自20只6-8周龄的雄性斯 普拉格-杜勒大鼠体重225-250克,每个实验均在常压、恒温并且室 内环境湿度相同的条件下进行。此外,所有雄性斯普拉格-杜勒大鼠 的大小、重量和健康状况在同一级别。

数据采集:将20只大鼠随机分成四组,包括1个非感染组和分 别感染铜绿假单胞菌、大肠杆菌以及金黄色葡萄球菌的3个感染组。 实验阶段的第一步,在每一个老鼠的后腿切出长约1cm的小口,然 后分别采用100ul规格为109CFU/毫升的铜绿假单胞菌或大肠杆菌或 金黄色葡萄球菌细菌溶液感染上述各感染组大鼠的伤口;同时,采用 相同体积的生理盐水即0.9%NaCl溶液感染到非感染组大鼠的伤口即 数据类别为4种。72小时后,本例采用15个传感器构建电子鼻传感 器阵列进行伤口气体数据采集,并分别对每只大鼠进行五次实验,即 每种伤口气体各完成20次,总共获得80组数据。

如图1所示,本方案提出一种基于多核Fisher判别分析的电子鼻 特征选择优化方法,按照以下步骤进行:

步骤1:对采集的样本电子鼻信号进行特征提取得到样本特征矩 阵X,并表示为X=[x1,x2,…,xN],其中xj表示第j个样本,j=1~N, N=80为样本总数,第i类的样本数为Ni,i=1~C,C=4为总类别 数即1个非感染组数据和3个感染组数据,则有

样本特征矩阵X中数据容量较多,因此为了减少数据维数,降低 运算难度,一般对样本特征矩阵X进行如下处理:采用非线性函数φ(·) 将输入空间映射到一个高维特征空间并令第i类第j个样本数据 xij在特征空间内的映射为φ(xij),则样本特征矩阵X化为:

φ(X)=[φ(X1),φ(X2),…,φ(XC)],

其中,φ(Xi)=[φ(xi1),φ(xi2),...,φ(xiNi)];

然后按照SB=1NΣi=1CNiφ(xi)φ(xi)T=1Nφ(X)(X)T计算特征空 间中的类间离散度矩阵SB,按照 SW=1NΣi=1CΣj=1Niφ(xij)φ(xij)T=1Nφ(X)φ(X)T计算类内离散度矩阵SW,其 中,为高维特征空间中第i类样本点的均值, Bi=1Ni[1]Ni×Ni是元素均为的Ni×Ni矩阵;

之后在高维特征空间中执行Fisher判别分析,也就是将φ(X)投 影到最佳判别矢量空间,以达到提取分类信息和压缩特征空间维数的 效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的 类内距离,即模式在该空间中有最佳的可分离性。使用这种方法能够 使投影后模式样本的类间离散度最大,并且同时类内离散度最小,即 等价于求解广义特征方程SBw=λSWw,即求解方程 (1Nφ(X)Bφ(X)T)w=λ(1Nφ(X)φ(X)T)w,其中w为特征向量;

由于特征向量w为高维特征空间中元素的线性组合,所以存在 向量α=[α11,α12,...,α1N1,...,αC1,αC2,...,αCNC]T,使得w=φ(X)α,

将其代入所述广义特征方程有

φ(X)Tφ(X)Bφ(X)Tφ(X)α=λφ(X)Tφ(X)φ(X)Tφ(X)α。

由此可以看出,以上数据都是以内积φ(X)Tφ(X)形式出现,因此 在本发明中采用核函数实现核Fisher判别分析,从而将高维特征空间 的内积运算转化为低维输入空间的核函数计算。

而为了克服单一核函数方法实现高维投影以后数据区分度不佳 的问题,同时避免增加运算量,本例中选用两个基本核函数进行计算 处理。

进入步骤2:初始化参数σ1与σ2,并根据参数σ1和σ2分别构建一 个基于所述样本特征矩阵X的基本核函数k1(xm,xn)和k2(xm,xn), m=1~N,n=1~N,

其中基本核函数有以下几种:

(1)线性核函数k(xm,xn)=xmTxn;

(2)多项式核函数其中t和d为核参数;

(3)高斯径向基核函数k(xm,xn)=exp(-||xm-xn||2/2σ2),其中σ为 核参数;

(4)多层感知机核函数其中t和s为 核参数,tanh(·)为双曲正切函数。

在本实施例中,作为优选,所述基本核函数k1(xm,xn)与k2(xm,xn) 采用高斯径向基核函数,其中,k1(xm,xn)=exp(-||xm-xn||2/2σ12), k2(xm,xn)=exp(-||xm-xn||2/2σ22);

由此分别计算基本核矩阵

K1=k1(x1,x1),k1(x1,x2),...,k1(x1,xN)k1(x2,x1),k1(x2,x2),...,k1(x2,xN).........k1(xN,x1),k1(xN,x2),...,k1(xN,xN),

K2=k2(x1,x1),k2(x1,x2),...,k2(x1,xN)k2(x2,x1),k2(x2,x2),...,k2(x2,xN).........k2(xN,x1),k2(xN,x2),...,k2(xN,xN),

其中K1和K2均为N×N的矩阵;

进入步骤3:初始化参数p,按照K=pK1+(1-p)K2计算出 高维特征空间内的复合核矩阵K,其中p为(0,1)之间的常数;

则方程φ(X)Tφ(X)Bφ(X)Tφ(X)α=λφ(X)Tφ(X)φ(X)Tφ(X)α可 等价为(KBK)α=λ(KK)α;

进入步骤4:求解广义特征方程(KBK)α=λ(KK)α,计算特征 值λ对应的特征向量α,其中,Bi=1Ni[1]Ni×Ni是 元素均为的Ni×Ni矩阵;

步骤5:根据获得的特征向量α按照A=[α12,...,αC-1]构建得出系 数矩阵A,则样本特征矩阵X在高维特征空间内向特征向量构成的 子空间的投影为Y=ATK;

步骤6:将样本特征矩阵X的投影Y=ATK作为电子鼻信号特征 进行模式识别,并在识别过程中用量子粒子群优化算法分别对参数p、 σ1、σ2以及分类器参数进行同步优化,确定出最高分类识别率对应 的核函数及分类器参数;

其中,优化算法的种群规模设为40,粒子维数为待优化的参数个 数为5,最大迭代次数为200。

本例中选择的分类器是支持向量机(SVM),由于分类器的参 数对分类效果有很大影响,因此本例中对分类器参数与参数p、σ1、σ2进行同步优化。

最后进入步骤7:输入一个新的电子鼻数据z,并基于所得最高 识别率核函数计算新样本z在高维特征空间中的投影 g=ATk(x1,z)...k(xN,z),然后将投影g作为分类器的输入进行模式识别。

针对分别被绿脓杆菌、大肠杆菌、金黄色葡萄球菌感染和非感染 的四种电子鼻检测数据,将采用本方案进行处理后的模式识别结果与 几种传统处理方法的模式识别结果进行对比,如表1所示:

表1不同特征选择优化方法的识别率

如表1所示,样本特征矩阵不进行特征优化直接送入分类器进行 模式识别的识别率仅为82.5%,说明传感器之间存在很多冗余信息影 响分类效果;使用主成分分析进行特征优化时,分类识别率改变不明 显,表明主成分分析在电子鼻数据处理中虽然降低了维数,但是同时 也丢失了部分重要的分类信息;Fisher判别分析对非线性问题效果不 佳,其模式识别的识别率甚至还不如不进行特征优化处理;核Fisher 判别分析采用单一核函数,高维投影以后数据区分度不佳,分类识别 率改变不明显;而本方案的识别率达到了92.5%,说明本方案在降低 维数,减小计算难度去除冗余的同时,最大限度的保留了分类信息, 提高了分类识别率。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号