首页> 中国专利> 用于模式分类的动态特征选择方法

用于模式分类的动态特征选择方法

摘要

本发明公开了一种用于模式分类的动态特征选择方法,按下列步骤进行:预处理模块对样本进行预处理后向知识库发出请求,如果请求为分类请求,则预处理模块向知识库获取最优特征组合对样本进行规则化后交给分类器进行分类,如果请求为特征选择请求,则预处理模块将部分样本输出给知识库,并结合知识库的部分样本进行组合,从组合的样本中输出部分样本进入特征选择模块,知识库中还输出特征选择模块和分类器需要动态调整的参数以及比率系数,指导特征选择模块和分类器结合进行特征选择,选择结束后,将相关参数反馈给知识库进行知识更新。本发明能够从不断变化的模式样本中动态选择出最优特征组合,更符合实际情况,满足高精度分类的需求。

著录项

  • 公开/公告号CN101339619A

    专利类型发明专利

  • 公开/公告日2009-01-07

    原文格式PDF

  • 申请/专利权人 重庆大学;

    申请/专利号CN200810070105.9

  • 发明设计人 李勇明;曾孝平;

    申请日2008-08-11

  • 分类号G06K9/62(20060101);

  • 代理机构重庆市前沿专利事务所;

  • 代理人郭云

  • 地址 400044 重庆市沙坪坝区沙坪坝正街174号

  • 入库时间 2023-12-17 21:19:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-10-10

    未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20100616 终止日期:20110811 申请日:20080811

    专利权的终止

  • 2010-06-16

    授权

    授权

  • 2009-02-25

    实质审查的生效

    实质审查的生效

  • 2009-01-07

    公开

    公开

说明书

技术领域

本发明涉及模式分类技术领域,具体地讲,是一种用于模式分类的对动态变化的模式样本进行特征选择的特征选择方法。

背景技术

模式分类问题目前广泛应用于电力、金融、商业、军事、医药卫生等诸多领域,其处理过程由样本预处理、特征提取、特征选择、分类等步骤组成。其中,特征选择是模式分类系统中重要的处理过程。在实际模式分类中,待分类的模式样本中往往含有大量的特征,特征选择可从这些大量的特征中删除掉对分类无关或作用较小的特征,选择出对分类非常有用的特征,以便分类器分类,从而可有效提高模式分类的效率和分类正确率。

在实际中的模式分类中,模式样本常常是动态变化的,原因有很多。以尿沉渣为例,来自不同医院采集的尿沉渣图像样本有所不同,同一个医院来自不同病人的尿沉渣图像样本有所不同,同一个病人不同情况下采集的尿沉渣图像样本也有所不同,等等。目前,现有的特征选择方法常常是属于静态特征选择方法,也就是在设计某一模式分类系统时,采集了一部分训练样本进行训练,选择出一个最优特征组合,然后根据这个最优特征组合对输入样本数据进行规则化,再输入到分类器进行分类。但在实际处理动态变化的模式样本的时候,样本数据在发生变化,待选的每个特征的重要性以及特征间的相关性都在发生变化,最优特征组合常常不是固定不变的,尤其对于复杂的高维特征选择问题来说,这种情况尤其突出。因此,用静态特征选择方法来处理动态模式样本时,常常会出现对于训练样本来说达到一定分类要求的最优特征组合用于其他样本时分类正确率明显下降或者不稳定。

发明内容

本发明的目的在于提供一种用于模式分类的动态特征选择方法,能够对于现实中不断变化的模式样本动态的选择出最优特征组合,从而最大限度的选出具有较高分类正确率的特征,满足高精度的分类需求。

为了实现上述目的,本发明的技术方案如下:一种用于模式分类的动态特征选择方法,包括下列步骤:

(一)预处理模块获取初始输入样本,并对初始输入样本进行预处理,获得预处理输入样本;预处理包括归一化和矩阵变换两种处理,预处理完成后,初始输入样本转换为特征矩阵,列向量表示输入样本个体的特征向量,行数表示特征数。样本大小根据经验确定,通常要大于待选特征数。

(二)预处理模块向知识库发出请求,该知识库对请求进行判断;

所述请求分为两种:分类请求和特征选择请求;当请求是分类请求时,进入分类流程,当请求是特征选择请求时,进入特征选择流程;如果在特征选择流程中,收到分类请求,则中断特征选择流程,转入分类流程;

所述分类流程为:

所述知识库向预处理模块输出存储的最优特征组合,该预处理模块根据该最优特征组合对所述预处理输入样本进行规则化,并输出规则化后的输入样本给分类器,分类器接收知识库传递的需动态调整的分类参数后,对接收的规则化输入样本进行分类;

所述规则化是指根据最优特征组合,对特征矩阵中的特征进行取舍后,得到新的样本矩阵,分类器对新的样本矩阵进行分类。

所述特征选择流程为:

A、所述知识库随机读取所述预处理模块中的部分预处理输入样本个体,组成输入训练样本,该输入训练样本与知识库中存储的存储训练样本整合,组成整合训练样本;所述存储训练样本为经过归一化和矩阵变换处理后的样本。

B、所述知识库随机选择整合训练样本中的部分个体,组成选择训练样本,该知识库对特征选择模块和分类器进行知识加载,包括:

所述知识库将所述选择训练样本分别送至特征选择模块和分类器;知识库还将存储的特征选择模块需要动态调整的特征选择参数送至特征选择模块,将存储的分类器需要动态调整的分类参数送至分类器;所述知识库还将存储的最优特征组合和初始种群送入所述特征选择模块;

知识库存储的特征选择参数依照特征选择模块中采用的具体的特征选择方法而定,存储的分类参数依照分类器的种类而定。

C、所述知识库中还将存储的比率系数送入所述特征选择模块;

D、所述特征选择模块计算初始种群中所有个体的适应度值,并将初始种群个体按照适应度值的高低排序,该特征选择模块按照所述比率系数规定的百分比,从适应度值最高的个体起依次选择占所有个体百分比的部分个体组成分类种群,送入分类器进行分类;

初始种群个体可以按适应度值从高到低排序,也可以从低到高排序。

所述比率系数范围在0到1之间,0表示不送入分类器分类,1表示全部送到分类器分类,也可以反过来规定。

如果特征选择模块中采用的特征选择方法涉及到的初始种群只有一个个体,则不需要排序,由比率系数决定是否送入分类器或者不送入分类器分类。对于个体数较小的种群,可以采用四舍五入的方式选择比率系数规定的种群个体数进入分类器分类。

E、所述分类器根据所述分类种群对所述选择训练样本进行分类,算出每个分类种群个体的分类正确率,并按分类种群个体的排序将该分类正确率返回给所述特征选择模块;完成一次分类,分类器得到新一代的分类参数;

F、所述特征选择模块按照分类正确率将分类种群个体进行重新排序,并和初始种群中剩下的个体组合成新的种群,然后进行特征选择;

G、完成一次特征选择后,得到新一代的最优特征组合和种群以及新一代的特征选择参数,并判断是否符合终止条件,如果不符合,再返回到步骤D,对新一代种群进行操作;如果符合终止条件,则结束特征选择和分类,输出得到的新一代最优特征组合,并对知识库进行知识更新:将得到的新一代最优特征组合和种群以及新一代特征选择参数和分类参数返回给所述知识库,对知识库存储的最优特征组合、初始种群以及特征选择参数和分类参数进行更新。

所述终止条件包括两个部分:第一部分是判断迭代次数是否超过设定的最大迭代次数,第二部分是判断每代的最优特征组合的适应度值之差是否连续低于某个阈值规定的次数,两个终止条件只需要满足一个,就算符合终止条件。

在返回到步骤D时,用得到的新一代种群代替步骤D中的初始种群后,进行操作。

所述知识库还通过人机接口与外界进行数据交换。在实际分类中,有可能知识库中保存的相关专业知识未考虑周全,专业人士可以通过人机接口进行完善和指正,以得到更好的最优特征组合。

所述特征选择模块中采用遗传选择方法进行特征选择。所述特征选择模块中还可以采用其他方法进行特征选择,如分支定界法、模拟退火法、顺序前进法、顺序后退法、增1减r法等。

所述分类器为支持向量机分类器。所述分类器还可以为其他类型的分类器,如多层神经网络、BP神经网络、SOM自组织聚类等。

所述知识库中存储的最优特征组合个数范围为[1,20],在对知识库存储的最优特征组合进行更新时,对存储中的适应度值最低的最优特征组合进行更新。所述知识库传送给预处理模块和特征选择模块的最优特征组合都是随机从该知识库存储的所有最优特征组合中随机选择。

有益效果:与现有技术相比,本发明采用特征选择和分类器按比率结合使用的模式,用分类结果检验特征选择的结果,从现实中不断变化的模式样本中动态的选择出最优特征组合,从而最大限度的选出具有较高分类正确率的特征,满足高精度的分类需求。同时建立知识库进行参数的存储和管理,并通过知识传递机制动态更新和加载这些知识,使得知识被及时获取从而赋予特征选择模块和分类器达到动态的高性能特征选择和分类能力。而且,可以根据现实中的侧重要求,合理设置比率系数,进行高效的特征选择,如在处理海量数据需要快速分类时,相应的特征选择方法需要侧重于选择速度;在处理量不大,但对分类正确率要求较高时,相应的特征选择方法侧重于选择精度等等。

附图说明

图1为本发明的结构方框示意图;

图2是本发明的工作流程示意图;

图3是本发明的特征选择流程示意图。

具体实施方式

下面结合附图和实施例进一步对本发明加以说明。

如图1、2所示:一种用于模式分类的动态特征选择方法,包括有下列步骤:

(一)预处理模块1获取初始输入样本,并对初始输入样本进行预处理,获得预处理输入样本;预处理包括归一化和矩阵变换两种处理,预处理完成后,初始输入样本转换为特征矩阵,列向量表示输入样本个体的特征向量,行数表示特征数。样本大小根据经验确定,通常要大于待选特征数。

(二)预处理模块1向知识库2发出请求,该知识库2对请求进行判断;知识库2中存储有特征选择模块4和分类器3需要动态调整的特征选择参数和分类参数,还存储有3个最优特征组合,以及种群和存储训练样本。本实施例中,特征选择模块4中采用遗传选择方法,该遗传选择方法需动态调整的特征选择参数有选择率、交叉率、变异率;分类器3采用支持向量机分类器,该分类器需要动态调整的分类参数有特征向量的范数的度d以及核函数构造的超平面与最近样本的间隔γ。

所述请求分为两种:分类请求和特征选择请求;当请求是分类请求时,进入分类流程,当请求是特征选择请求时,进入特征选择流程;如果在特征选择流程中,收到分类请求,则中断特征选择流程,转入分类流程;

所述分类流程为:

所述知识库2向预处理模块1随机输出一个最优特征组合,该预处理模块1根据该最优特征组合对所述预处理输入样本进行规则化,并输出规则化后的输入样本给分类器3,分类器3接收知识库2传递的需动态调整的分类参数后,对接收的规则化输入样本进行分类;

支持向量机分类器3的分类过程如下:首先,支持向量机通过核函数将接收的规则化输入样本映射到另一个空间,在那个空间里样本之间是线性可分的;然后通过线性关系式将样本进行分类;最后输出分类结果。核函数的获取是分类好坏的关键,而参数的优化是获取好的核函数的关键,在这里,所需参数特征向量的范数的度d和核函数构造的超平面与最近样本的间隔γ由知识库2动态加载和更新,即动态优化。其核函数如下:

kP·G=((xi·x)d·exp(-12γ||xi-x||2))

所述规则化是指根据最优特征组合,对特征矩阵中的特征进行取舍后,得到新的样本矩阵,分类器3对新的样本矩阵进行分类。假设预处理训练样本中涉及10个特征,最优特征组合为{0,1,1,0,0,1,1,0,1,0},只选取了第二、三、六、七、九这五个特征,则经过规则化后的训练样本为这五个特征组成的新样本矩阵。

如图3所示:所述特征选择流程为:

A、所述知识库2随机读取所述预处理模块中的部分预处理输入样本个体,组成输入训练样本,该输入训练样本与知识库2中存储的存储训练样本整合,组成整合训练样本;所述存储训练样本为经过归一化和矩阵变换处理后的样本。

B、所述知识库2随机选择整合训练样本中的部分个体,组成选择训练样本,该知识库2对特征选择模块4和分类器3进行知识加载,包括:

所述知识库2将所述选择训练样本分别送至特征选择模块4和分类器3;知识库2还将存储的特征选择模块4需要动态调整的特征选择参数选择率、交叉率、变异率送至特征选择模块4,将存储的分类器3需要动态调整的分类参数特征向量的范数的度d以及核函数构造的超平面与最近样本的间隔γ送至分类器3;所述知识库2还从存储3个最优特征组合中随机选择一个最优特征组合以及初始种群送入所述特征选择模块4;

C、所述知识库2中还将存储的比率系数送入所述特征选择模块4;

D、所述特征选择模块4计算初始种群中所有个体的适应度值,并将初始种群个体按照适应度值从高到低排序,该特征选择模块4按照所述比率系数规定的百分比,从适应度值最高的个体起依次选择占所有个体百分比的部分个体组成分类种群,送入分类器3进行分类;

所述比率系数范围在0到1之间,0表示不送入分类器3分类,1表示全部送到分类器3分类。

本实施例中采用遗传选择方法进行特征选择,初始种群个体一般大于待选特征数,如果特征选择模块4中采用的特征选择方法涉及到的初始种群只有一个个体,则不需要排序,由比率系数决定是否送入分类器或者不送入分类器分类。对于个体数较小的种群,可以采用四舍五入的方式选择比率系数规定的种群个数进入分类器3分类。

E、所述分类器3根据所述分类种群对所述选择训练样本进行分类,算出每个分类种群个体的分类正确率,并按分类种群个体的排序将该分类正确率返回给所述特征选择模块4;完成一次分类,分类器3得到新一代的分类参数;每个种群个体对应的分类正确率的计算方法为:将每一类的分类正确率进行算术平均就是该个体对应的分类正确率。

F、所述特征选择模块4按照分类正确率将分类种群个体进行重新排序,并和初始种群中剩下的个体组合成新的种群,然后进行特征选择;

采用遗传选择方法进行特征选择,按照知识库2加载的选择率、交叉率、变异率,依次进行选择、交叉、变异操作,三步操作完成后,完成一次特征选择。

G、完成一次特征选择后,得到新一代的最优特征组合和种群以及新一代的特征选择参数,并判断是否符合终止条件,如果不符合,再返回到步骤D,对新一代种群进行操作;如果符合终止条件,则结束特征选择和分类,输出得到的新一代最优特征组合,并对知识库2进行知识更新:将得到的新一代最优特征组合和种群以及新一代特征选择参数和分类参数返回给所述知识库2,对知识库2存储的最优特征组合、初始种群以及特征选择参数和分类参数进行更新。

所述终止条件包括两个部分:第一部分是判断迭代次数是否超过设定的最大迭代次数,第二部分是判断每代的最优特征组合的适应度值之差是否连续低于某个阈值规定的次数,两个终止条件只需要满足一个,就算符合终止条件。

在返回到步骤D时,用得到的新一代种群代替步骤D中的初始种群后,进行操作。

所述知识库2还通过人机接口5与外界进行数据交换。在实际分类中,有可能知识库2中保存的相关专业知识未考虑周全,专业人士可以通过人机接口5进行完善和指正,以得到更好的最优特征组合。

本发明中的特征选择模块4中采用的特征选择方法不限于遗传选择方法,采用的分类器3不限于支持向量机分类器。本实施例中未详细描述之处为公知技术,本领域技术人员都能实现,因此这里不再累述。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号