首页> 中国专利> 一种基于模块化组合神经网络的机器嗅觉气味识别方法

一种基于模块化组合神经网络的机器嗅觉气味识别方法

摘要

本发明是一种基于模块化组合神经网络的机器嗅觉气味识别方法。其特点是组合神经网络分类器由前向单隐层感知器模块和RBF神经网络模块所组成;各个分类器模块均由若干个子模块所组成,其结构经过增长和修剪两个阶段最终确定,中心、宽度、权值等参数通过误差反传算法确定。本发明提出的模块化组合神经网络分类器通过以下三个途径:(1)将一个很复杂的多气味识别问题转化为多个较简单的两气味识别问题;(2)将气味强度估计问题按一定分辨率转化为识别问题;(3)仅让与分类区域有关的部分类别的样本来训练每个子模块,从而快速有效地解决了高维多类别海量样本集的学习问题。利用本发明,机器嗅觉装置就能识别成千上万种气味,并同时具有估计气味强度的能力。

著录项

  • 公开/公告号CN1482453A

    专利类型发明专利

  • 公开/公告日2004-03-17

    原文格式PDF

  • 申请/专利权人 华东理工大学;

    申请/专利号CN03141537.7

  • 发明设计人 高大启;

    申请日2003-07-11

  • 分类号G01N27/12;G01N27/04;G01N35/00;G06G7/60;

  • 代理机构31203 上海顺华专利代理有限责任公司;

  • 代理人薛美英

  • 地址 200237 上海市徐汇区梅陇路130号

  • 入库时间 2023-12-17 15:09:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2009-09-09

    专利权的终止(未缴年费专利权终止)

    专利权的终止(未缴年费专利权终止)

  • 2005-11-23

    授权

    授权

  • 2004-05-26

    实质审查的生效

    实质审查的生效

  • 2004-03-17

    公开

    公开

说明书

                        技术领域

本发明涉及面向高维(≥60)、大样本(≥60,000)、多类别(≥1,000)问题的一种模块化组合神经网络分类器及其在机器嗅觉装置中的应用,该模块化组合分类器使机器嗅觉装置具有识别数千种气味并估计其强度的能力。

                        背景技术

1989年在北大西洋公约组织(NATO)召开的化学感知国际学术会议上,学术界给机器嗅觉(也称电子鼻)的定义是:机器嗅觉是一种仪器,由性能重叠的多个气敏传感器和适当的模式识别方法所组成,具有识别简单或复杂气味的能力。据说训练有素的专业人员能识别4,000种气味,相比之下,机器嗅觉装置的识别能力还十分有限,从文献检索结果看,仅为有限的几种,至多10几种。造成这种状况的原因,除气敏传感器的灵敏度、选择性、重复性等性能与人们的期望还有距离之外,一个主要因素是机器嗅觉目前所采用模式识别方法不能有效地解决高维、大样本和多类别问题。

机器嗅觉中,不同浓度下同一种呈香物质香气强度的估计,同分异构包括手性物质的判别是典型的同类别多区域分布问题。而且,气味类别本来就十分繁多。当传感器数目较多,从每个传感器响应曲线上提取最大值、微分值和积分值等特征,加上温度、湿度、压力、流量等特征,这样一来,样本维数往往很高。为了使机器嗅觉装置具有一定的容错性和推广能力,往往需要采集大量的学习样本。由此可见,机器嗅觉不仅要解决高维、大样本多类别分类问题,而且要解决同类别多区域和不规则分布问题。

传统的Bayes方法需要事先知道类别先验概率,需要估计类条件概率,不仅如此,当同一类别的样本维数较高且分布在不规则或多个区域时,情况变得更加复杂起来。距离判别法的一个假设是同一类别的样本分布在一个凸区域,因此,在解决香气类别及其强度估计问题就会遇到困难。不仅如此,Euclid距离判别法分类正确率低;当协方差阵奇异时,Mahalanobis距离判别法失效。

K-近邻法在每次做决策时,要求将训练集所有样本存入计算机,要求计算待分类样本与全部训练集样本的距离并进行比较,这样一来,对高维大样本多类别问题需要大量的存储量和计算量。由于训练集样本类别标签全部正确这一前提并不妥当,导致K-近邻(K-NN)法分类正确结果的可信度较差。

由于统计判别方法存在种种问题,神经网络模式分类方法日益受到人们的重视。其中,前向多层感知器(Feedforward Multilayer Perceptrons,MLPs)和径基函数(Radial Basis Function,RBF)神经网络应用最为广泛。

与统计方法相比,前向单隐层感知器原理清楚,使用方便,对大多数模式识别问题,包括经典的逻辑异或(XOR)问题等,都展现出良好的性能,但对变标签(Alternate-labels)问题、双螺旋(Two-Spirals)问题等又显得力不从心。不仅如此,前向多层感知器存在的学习时间长、隐节点数难以优化确定、学习过程中易陷入局部极小点等缺陷在解决高维大样本多类别问题时显得尤其明显。从文献检索结果看,前向多层感知器所识别的类别数最多为26(英文字母识别),这与机器嗅觉的要求差距甚远。

与前向单隐层感知器相比,RBF网络具有学习速度快、学习过程不易陷入局部极小点等优点。由于RBF核的局部敏感特性,使得RBF网络能较有效的解决凹分布问题,但中心与宽度对RBF网络的性能影响很大。聚类是目前确定其中心与宽度的主要方法,包括C-均值聚类、模糊聚类、局部聚类、整体聚类等方法。聚类方法对类间距离较大、类内距离较小的小样本低维数据较为有效,但对高维大样本多类别问题尚无成功应用之报道。中心与宽度的自适应确定方法对高维大样本问题同样面临存储量大和运算量大等问题。

一种分类器的能力是有限的,因此,20世纪90年代初人们提出了组合分类器问题。但是,人们一般选用分类能力不高的多个简单分类器进行组合,过多地将关注焦点放在多分类器输出的融合上。例如,若干个线性分类器的组合,若干个Bayes分类器的组合等。输出融合方法主要为大多数投票法、输出线性组合法、输出标准化后的概率组合法、矢量量化法(Vector Quantization,VQ)等。从文献检索结果看,组合分类器的应用对象多为手写数字例如邮政编码的识别和话者独立的语音识别,类别数仅为10类,与机器嗅觉中成千上万中气味的识别要求相差甚远。

将一个n类问题转化为n个两类问题是一种自然的做法,但会带来训练样本不平衡等问题。目前的模块化分类器应用对象的类别数也十分有限,最多为上述26个英文字母的识别。既然训练集样本全部参加学习为计算机学习速度和存储量所不允许,那么如何从海量的训练样本集中选择那些只对确定其中一个类别的决策边界有关的样本组成子集来确定一个个分类器模块的结构与参数是一个十分重要的问题,是本发明的主要研究内容之一。事实上,那些距离很远的类别样本对确定一个分类器模块的结构与参数并不起作用。

现有一种嗅觉模拟装置及其嗅觉模拟测试方法(参见专利申请号:02111046.8),使用该套装置检测待测气味,得到多维响应信号,需要经计算机数据处理,最终得到气味的类别、整体强度或简单成分气味浓度估计值。该发明没有具体解决如何实现计算机数据处理。

                          发明内容

本发明是对现有的一种嗅觉模拟装置及其嗅觉模拟测试方法(参见专利申请号:02111046.8)的改进,利用模块化组合神经分类器通过学习大量气味特征,将大量气味特征记忆,通过识别比较,从而使机器嗅觉系统对具有对成千上万种气味进行类别判断和强度估计的能力。

本发明采用了下列技术方案:

机器嗅觉装置通过对大量气味的测量,得到大量学习样本,模块化组合神经网络分类器通过学习学习样本,确定了最优结构和参数,在识别气味时,将通过机器嗅觉装置得到气味的特征,与模块化组合神经网络分类器记忆的气味特征比较,确定该气味的类别或强度;

所述的模块化组合神经网络分类器是由感知器模块和RBF神经网络模块所组成;

所述的感知器模块通过以下步骤确定其结构和参数:

a.将一个复杂的n类问题转化为n个较简单的两类问题;

b.将气味强度估计问题依拟合精度转化为多个分类问题;

c.感知器模块的特征分量的大小成比例变化到一定的范围内;

d.各感知器模块的初始结构由经验公式确定,优化结构通过对隐层输出矩阵进行奇异值分解而确定;

e.各个感知器模块的初始训练子集仅由其对应类别自身和与之最近类别的样本组成,训练集其余部分作为交叉有效集;只有在该感知器模块对交叉有效集中某一类别产生较大的推广误差的情况下,该交叉有效子集才被加入到训练子集;这时,训练子集增大,交叉有效集变小;如此反复,直到该模块对整个训练集的误差在允许范围内为止;

所述的RBF神经网络模块通过以下步骤确定其结构和参数:

a.将一个复杂的n类问题转化为n个较简单的两类问题;

b.将气味强度估计问题依拟合精度转化为多个分类问题;

c.RBF神经网络模块,特征分量不变化;

d.各个RBF神经网络模块的初始训练子集为对应感知器模块学习完毕产生的训练子集,若一轮学习结束后,对交叉有效集中某一类别产生较大的推广误差的情况下,这个被错分类别的样本被加入到训练子集,这时,训练子集增大,交叉有效集变小,如此反复,直到该模块对整个训练集的误差在允许范围内为止;

所述的各个RBF神经网络模块由单层RBF网络和单层感知器串联组成;

所述的RBF神经网络模块中的单层RBF网络开始学习时只有一个核,对应类别所有样本的目标输出均为1,其余类别样本的目标输出为0,若由此产生较大的训练子集推广误差,则废弃该核,依次产生一个个新核,每个核应尽可能多地包含对应类别的样本,由此产生的多个核将对应类别所有样本全部包含;若一个核的所有样本已经被同类别的一个或多个核包含,则删除该核;

所述的RBF网络模块中的单层感知器结构已知,其权值与阈值由误差反传算法确定。

对于多层感知器模块,其特征分量的大小成比例变化到[0,5]的范围内。各个感知器模块的初始训练子集仅由其对应类别自身和与之最近10个类别的样本组成。所述的推广误差是指大于3.0%。所述的核的中心与宽度由误差反传算法自适应确定;所述的组合神经网络分类器,对于新的气味类别与强度,不需要整个分类器重新训练,只需生成一个新的分类器模块,然后重新训练与之最距较近的有限几个分类器模块就足够了。所述的组合神经网络分类器,其测试集样本的类别由输出值最大的分类器模块所决定。

由于本发明采用了以上技术方案,因此具有以下的效果:

1.解决了选择最小的子集训练前向感知器模块和RBF神经网络模块问题。使得二者与学习海量多类别样本集得到的网络结构与参数具有相同的甚至更好的推广能力。

2.解决了网络学习过程中易陷入局部极小和学习速度慢的问题。由于将多类别问题简化成多个简单的两类问题,一个个模块仅用较小的子集进行训练,陷入局部极小点的可能性大大减小。同时,通过将输入分量放大到[0,5]的范围和将前向单隐层感知器的活化函数变换为f(x)=3(1+exp(-x/3.0))-1两项措施,可大大加快感知器模块的学习速度。

3.可有效地找到两种类型神经网络分类器模块的优化结构与参数。通过奇异值分解方法可有效确定前向单隐层感知器的优化结构;通过网络增长与修剪方法可有效地确定RBF网络模块的优化结构。同时,通过误差反传算法自适应确定RBF的中心与宽度,机器嗅觉装置因此具有对成千上万种气味进行类别判断和强度估计的能力。

                       附图说明

图1是本发明机器嗅觉装置原理示意图。

图2是本发明机器嗅觉装置的具体结构示意图。

图3是本发明模块化组合神经网络分类器原理示意图。

图4是本发明组合神经网络分类器第j个模块示意图。

图5是本发明前向单隐层感知器模块自动生成流程图。

图6是本发明RBF神经网络模块自动生成流程图。

图7是本发明模块化组合神经网络分类器输出结果融合流程图。

图8是本发明机器嗅觉装置记忆(学习)气味流程图。

图9是本发明机器嗅觉装置确定气味类别与强度流程图。

                        具体实施方式下面结合附图对本发明作进一步详细描述:

本发明所基于嗅觉模拟装置如图2所示,本发明所解决的是如图1所示虚框内计算机所要解决的技术问题。

根据上述机器嗅觉装置进行气味类别判断和强度估计的方法,如图2所示包括如下步骤:

a、将30ml的待测液体或固体样品放置于250ml的样品瓶内,在45±0.1℃条件下保温30min。

b、操作人员将经平衡的样品瓶单向阀插入测试箱上的进气口,单向阀打开。微型隔膜泵将样品瓶顶空的呈香物质挥发气以1.0l/min的流量吸入密封的气体管道。这时,待测气味约以40mm/s的速度略过传感器敏感膜表面,然后经消毒后从排气口排入大气中。

c、当气体累积采样流量达到100±1ml时,进气电磁阀1关闭。然后,微型隔膜泵将环境空气吸入以清洗管道。在1min的间隔内,操作人员将被测样品瓶移走。

d、在气体流动过程中,气敏传感器阵列的响应经数据采集卡被记录下来,并被存入数据存储器中,由此得到多条响应曲线。

e、从每一条响应曲线上提取最大值、最大值之前的积分值和微分平均值,再加上环境温湿度,这样一来,表征每一种气味的特征向量维数为50。

f、组合分类器根据对气味一次测量得到的特征向量,在测得最大值10s之后给出气味类别或强度等结果。

g、一个具体的测试过程如下:环境空气还原(120s)-氧气或洁净空气还原(40s)-稳定(5s)-采样(10s)-保持(2s)-环境空气清洗(120s)。

h、重复a~f步骤,进行多次测试。

一、学习(记忆)过程

如图8所示,机器嗅觉装置通过对大量呈香物质挥发气味的测量,得到大量的学习样本,模块化组合神经网络分类器通过学习,确定了最优结构和参数,由此将大量气味特征记录下来。

本发明对同一种类同一强度的气味测量300个样品,以此作为训练集一个子类。假设有2,000个不同种类与强度的气味,训练集就包含60,000个样本。如图3所示,组合分类器一个个模块的确定方法,包括如下步骤:

a、将一个n类问题转化为n个两类问题。

b、单隐层感知器模块结构与参数的确定,如图5所示:

[b.1]  将所有输入分量变换到[0,5]的范围内。具体做法是,找出训练集最大分量值,然后,训练集所有样本乘以5再除以该最大值。

[b.2]  第j个单隐层感知器模块(如图4所示)训练子集与结构的确定:

[b.3]  初始隐节点数按公式s=2log2(m+1)确定。这里,m为输入向量维数。

[b.4]  隐单元和输出单元的活化函数为f(x)=3(1+exp(-x/3.0))-1

[b.5]  由第j个子类样本及其与之最近(以Euclid距离度量)的10个子类样本组成初始训练子集,即仅包含3,300个样本。属于第j个子类的样本,其目标输出为1,否则为0。训练集其余部分作为交叉有效集。

[b.6]  以误差反传(Back-Propagation,BP)算法对感知器模块j进行训练。模块学习性能用训练子集所有样本的目标输出与其实际输出的平均均方根误差ε(Mean error of root-mean-squares)来度量。若ε≤0.05,则学习结束。

[b.7]  若学习好后的模块j对交叉有效集某一子类的分类误差超过3.0%,该子类被加入训练子集。这时,交叉有效集变小。

[b.8]  对隐层实际输出矩阵H进行奇异值分解(Singular value decomposition,SVD)。以单个奇异值与H的Fibonacci范数值‖H‖F之比小于5%作为隐节点删去的标准。由此,可确定感知器模块j的最优隐节点数。

[b.9]  重复[b.6]~[b.7],直到生成最小训练子集为止。重复[b.2]~[b.9],直到所有感知器模块的结构与参数都被确定为止。

c、RBF神经网络模块结构与参数的自适应确定,如图6所示:

[c.1]  第j个RBF神经网络模块训练子集与结构的确定。该模块结构请见附图4,由一个输入节点数等于样本维数m但输出节点数待定的单层RBF网络和一个输入节点数待定但输出节点数为1的单层感知器串联组成。单层RBF网络输出节点数和后继的单层感知器输入节点数相等,但通过学习自适应确定。

[c.2]  以训练感知器模块j的子集作为RBF网络模块j的初始训练子集。属于第j个子类的样本,其目标输出为1,否则为0。训练集其余部分作为交叉有效集。

[c.3]  单层RBF网络输出单元采用Gaussian活化函数g(x)=exp(-x2/2),其总输入由中心μ与宽度σ向量共同确定。一般说来,同一RBF的宽度分量互不相等,不同RBF的宽度与中心也互不相等,其最终值通过学习自适应确定。

[c.4]  单层RBF网络的输出节点(RBF核)依次自适应生成。具体生成方法如下:

(c.4.1)首先用一个核将第j类样本全部包含进去,通过中心与宽度的自适应,使得对第j类样本,核的实际输出尽可能接近于1.0;反之,对其他类别的样本,核的实际输出尽可能接近于0.0。取分类阈值为0.5,如果由此引起训练子集分类错误率超过3.0%,则抛弃该核,并按以下步骤生成新核:

(c.4.2)一个新核最初仅包含第j类按顺序号未被现有核包含的第一个样本。自适应调整其中心与宽度,与之相近的同类别样本不断被加入,使之包含尽可能多的样本。核不断增大直到分类错误率超过3.0%为止。对应于被包含的样本,该核的实际输出应大于0.5。

(c.4.3)重复(c.4.2)生成新核,直到第j类样本全部被多个核包含为止。

(c.4.4)核的修剪。若某个核所包含的所有样本已被属于同类别的其他核所包含,则删去该核。

(c.4.5)重复(c.4.2)~(c.4.4),单层RBF网络的输出节点数、核函数中心与宽度被确定,

[c.5]  依据[c.4],后继的单层感知器的结构已确定,输出单元活化函数为标准Sigmoid的,即f(x)=(1+exp(-x))-1。对一个输出节点j,权值分量wj0与阈值wjh之比等于-0.5,但wjh>0,wj0<0。本发明取wjh=10.0,wj0=-5.0。

[c.6]  若该RBF网络模块对交叉有效集某一子类的分类误差超过3.0%,则将该子类移入训练子集。这时,训练子集增大,交叉有效集变小。

[c.7]  重复[c.4]~[c.5],直到RBF神经网络模块对交叉有效集的分类误差不超过3.0%为止。

重复[c.2]~[c.7],直到所有RBF神经网络模块的结构与参数都被确定为止。

二、识别过程

如图9所示,在识别阶段,机器嗅觉装置通过对待定气味的一次测量,将得到的特征和上述模块化组合神经网络记忆的气味特征相比较,从而确定该气味的类别或强度,并将结果与专业评香人员或色、质谱分析结果相比较。

采用多分类器的融合,如图7所示。分别根据前向单隐层感知器模块和RBF神经网络模块的最大输出值确定一种待定的气味的类别或强度。

1.若前向单隐层感知器模块和RBF神经网络模块同时给出一致的结果,则结论正确无疑。

2.若上述两类型模块给出不一致的结果,但至少一个模块的实际输出大于0.5,则最后结果以大者为准。

3.若上述两类型所有模块的实际输出均小于0.5,则机器嗅觉装置认为该气味不属于现有任何类别的气味。

4.若上述两类型各有一个或多个模块的实际输出大于0.5,则按分类器类型分别将输出归一化,依其中的大者确定该气味的类别与强度。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号