首页> 中国专利> 基于最大信息系数的特征选择、分类方法及其装置

基于最大信息系数的特征选择、分类方法及其装置

摘要

本发明涉及一种基于最大信息系数的特征选择、分类方法及其装置,所述特征选择方法包括:S1,基于互信息准则将原始特征进行排序,将相关度低于阈值的特征删除,并将所述相关度高于阈值的特征形成初始特征子集;S2,计算在所述初始特征子集中的特征之间的最大信息系数;S3,根据所述最大信息系数,删除所述初始特征子集中的冗余特征,得到低维特征子集。本发明所述的特征选择方法通过使用互信息以及最大信息系数的方式进行特征选择,从而去除冗余特征,降低了数据的维度。

著录项

  • 公开/公告号CN104050242A

    专利类型发明专利

  • 公开/公告日2014-09-17

    原文格式PDF

  • 申请/专利权人 哈尔滨理工大学;

    申请/专利号CN201410228055.8

  • 发明设计人 孙广路;何勇军;刘广明;

    申请日2014-05-27

  • 分类号G06F17/30(20060101);G06K9/62(20060101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人李迪

  • 地址 150080 黑龙江省哈尔滨市南岗区学府路52号

  • 入库时间 2023-12-17 01:14:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-03-27

    授权

    授权

  • 2014-10-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140527

    实质审查的生效

  • 2014-09-17

    公开

    公开

说明书

技术领域

本发明涉及无线通信领域,具体地,涉及一种基于最大信息系数 的特征选择、分类方法及其装置。

背景技术

随着科学技术的发展,数据规模也随之快速增长,对这些数据 进行智能化的分析和处理变得越来越重要。但是随之而来的问题是, 海量的原始数据中存在着大量冗余信息,对模式识别、机器学习等 领域的算法提出了挑战。一方面,冗余数据极大地增加了算法的时间 复杂度和空间复杂度,浪费了存储资源,增加了处理时间;另一方 面,冗余数据由于存在较大相关性,导致分类结果产生偏差,降低 了智能信息处理软件的性能。特征选择以消除数据冗余,降低数据 维数为目的,是解决上述问题的有效方法,因而一直是学术界研究 的热点。

网络流量的特征种类多样,数值覆盖范围广,兼有离散和连续 特征,处理起来有着很大的困难,难以得到有利于分类的优秀的特 征子集。

在特征选择方面已有许多成型方法,典型的有基于信息增益的、 基于神经网络的、基于决策树的方法等。从广义上来说,特征选择 可分为两大类,第一类是特征排序,第二类是特征子集选择。特征 排序的方法首先计算特征与类别之间的相关性,然后根据相关性对 特征进行排序,保留与类别相关性强的特征。尽管这类方法速度快, 但是难以消除冗余特征。特征子集选择通过选择维数尽可能低、各 位之间相关性尽可能小的一个特征子集,能有效消除冗余特征。但 传统的特征子集选择方法大都根据特征之间的线性相关性选择特 征,难以消除普遍存在的非线性冗余,这限制了该类方法性能的提 高。

发明内容

本发明提供了一种基于最大信息系数的特征选择、分类方法及其 装置,通过使用互信息以及最大信息系数的方式进行特征选择,从而 去除冗余特征,降低了数据的维度。

为此目的,本发明提出了一种基于最大信息系数的特征选择方 法,其特征在于,所述方法包括:S1,基于互信息准则将原始特征进 行排序,将相关度低于阈值的特征删除,并将所述相关度高于阈值的 特征形成初始特征子集;S2,计算在所述初始特征子集中的特征之间 的最大信息系数;S3,根据所述最大信息系数,删除所述初始特征子 集中的冗余特征,得到低维特征子集。

其中,步骤S1具体包括:根据所述原始特征与类别之间的相关程 度对所述原始特征进行排序,并将相关程度低于阈值的特征删除。

其中,所述步骤S2包括:S21,将所述初始特征子集中的特征放 置在二维坐标系中;S22,对所述二维坐标系进行多次网格划分;S23, 计算在每次网格划分下,每一块网格中的特征之间的互信息值,计算 每次网格划分的最大互信息值,并建立最大互信息矩阵;S24,通过 最大户信息矩阵计算所述初始特征子集中的特征的最大信息系数。

其中,所述建立最大互信息矩阵包括:设定每次网格划分的大小 小于B,B为根据所述特征的数量设定的值,所述最大互信息矩阵的 计算公式如下:

M(D)i,j=I*(D,i,j)logmin{i,j}

其中,M(D)i,j为所述最大互信息矩阵的第i行第j列的值,表示在 不同的网格划分条件下得到的最大互信息值,且i,j满足0<i<B, 0<j<B,i×j<B。

其中,所述步骤S3包括:选择最大信息系数超过设定阈值的特征 对;将相互关联的特征对组成冗余特征集合;选取每个冗余特征集合 中贡献度最大的特征作为子特征,并将所述每个冗余特征集合中的其 他特征删除;将每个所述冗余特征集合的子特征组成所述低维特征子 集。

根据本发明的另一个方面,提供了一种基于上述特征选择方法进 行数据分类的方法,所述方法包括:S101,根据上述特征选择方法对 数据进行选择;S102,将选择后的数据通过训练形成模型;S103,通 过所述模型对待测数据进行识别。

其中,使用增量式支持向量机模型对所述选择后的数据进行训 练。

根据本发明的又一个方面,提供了一种基于最大信息数的特征选 择装置,其特征在于,所述装置包括:初始特征形成模块,基于互信 息准则将原始特征进行排序,并将低于阈值的特征删除,形成初始特 征子集;最大信息系数计算模块,计算在初始特征子集中的特征之间 的最大信息系数;特征选择模块,根据最大信息系数,删除所述初始 特征子集中的冗余特征,得到低维特征子集。

其中,所述最大信息系数计算模块包括:坐标系建立单元,将所 述初始特征子集中的特征放置在二维坐标系中;网格划分单元,对所 述二维坐标系进行多次网格划分;最大互信息计算单元,计算在每次 网格划分下,每一块网格中的特征之间的互信息值,计算每次网格划 分的最大互信息值,并建立最大互信息矩阵;最大信息系数计算单元, 通过最大户信息矩阵计算所述初始特征子集中的特征的最大信息系 数。

根据本发明的又另一个方面,提供了一种基于上述特征选择装置 的数据分类装置,其特征在于,所述系统包括:上述特征选择装置, 对数据进行选择,删除冗余数据;模型训练模块,将选择后的数据通 过训练形成模型;识别模块,通过所述模型对待测数据进行识别。

通过上述实施例可知,使用本发明所述特征选择、分类方法及其 装置,具有以下有益效果:

1、对特征选择采用删除不相关特征和删除冗余特征两种方式, 从而能够将网络量中的大量冗余特征进行删除,从而降低了数据维 数,便于在进行数据处理中减少了处理时间和空间,避免了资源的浪 费;

2.采用最大信息系数的方法删除冗余特征,可以同时将特征集 中的线性相关和非线性相关的冗余特征去除,从而可以很好地降低数 据的维数;

3.使用本发明的特征选择方法后的特征进行分类,可以减少数 据的处理量,从而减少了计算的复杂度,并且不会影响数据的计算精 度。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点,附图是示 意性的而不应理解为对本发明进行任何限制,在附图中:

图1示出了本发明的一种基于最大信息系数的特征选择方法的流 程图;

图2示出了本发明的一种基于最大信息系数的特征选择方法的步 骤S2的流程图;

图3示出了本发明的一种基于最大信息系数的特征选择方法的步 骤S3的流程图;

图4示出了本发明的一种基于上述特征选择方法进行数据分类的 方法的流程图;

图5示出了本发明的一种基于最大信息系数的特征选择装置1001 的结构框图;

图6示出了本发明的一种基于最大信息系数的特征选择装置的最 大信息数计算模块200的结构框图;

图7示出了本发明的一种基于上述特征选择装置的数据分类装置 的结构框图。

具体实施方式

下面将结合附图对本发明的实施例进行详细描述。

图1示出了本发明的一种基于最大信息系数的特征选择方法的流 程图。

参照图1,本发明的实施例的基于最大信息系数的特征选择方法 包括步骤:

S1、基于互信息准则将原始特征进行排序,将相关度低于阈值的 特征删除,并将相关度高于阈值的特征形成初始特征子集。

由于网络流量数据存在大量的冗余以及不相关特征,因此首先利 用特征与类别之间的相关程度对特征进行排序,保留与类别的相关性 强的特征,删除相关性弱的特征。

本实施例中,基于互信息的方法,计算特征fi与类别C相关性的 公式如下:

I(fi;C)=p(fi,C)logp(fiC)p(fi)p(C)dfidC

其中p(fi)表示特征fi的概率密度函数,p(C)表示类别C的概率密 度函数,p(fi,C)表示特征fi和类别C的联合概率密度函数。

在本实施例中,由于无法得知特征的概率分布,也很难估计出来 特征的分布,因此采用原始的概率公式来统计,即通过频率来估计概 率,在样本充足的情况下,可以很好的反应实际情况。

根据特征与类别的相关性I(fi;C)的值对特征进行排序,并根据需 要设置阈值θ,如果I(fi;C)≥θ,那么对应的特征fi将被保留,反之则 被删除。最后得到初始特征子集F。

S2、计算在初始特征子集中的特征之间的最大信息系数;

对于初始特征子集F,里面还存着这大量的冗余特征,这些特征 之间存在着线性或者非线性的关系,也就意味着特征之间所包含的信 息有很大一部分是重叠的,需要删除这样的特征或者是子集。

本实施例中,采用网格划分的方式,定量地衡量特征之间的非线 性关系。

图2示出了本发明的一种基于最大信息系数的特征选择方法的步 骤S2的流程图;

参照图2,步骤S2的具体过程如下:

S21,将所述初始特征子集中的特征放置在二维坐标系中;

S22,对所述二维坐标系进行多次网格划分;

S23,计算在每次网格划分下,每一块网格中的特征之间的互信 息值,计算每次网格划分的最大互信息值,并建立最大互信息矩阵;

S24,通过最大户信息矩阵计算所述初始特征子集中的特征的最 大信息系数。

在本实施例中,对于特征的网格划分方法,已一种网格划分方式 为例,方法如下:

假设有限集D包含有一对特征,将此特征对放置于x×y二维坐标 系中,然后对坐标系进行网格划分,划分大小为m×n,并命名为这种 网格划分方法为G。设定此对特征之间的最大互信息为I*(D,x,y),公 式如下:

I*(D,x,y)=maxI(D|G)

其中I(D|G)表示在网格划分G的条件下,每一块网格中变量之 间的互信息值,I*(D,x,y)表示这些互信息的最大值。互信息的计算 公式如上所述的计算特征与类别之间相关度的公式,I*(D,x,y)可以 在一定程度上表示特征在划分G下的相关程度。

同时,在本实施例中,一种网格划分无法准确地描述非线性关系, 因此进行了多种网格划分的方式。方法如下:

规定网格划分的大小为m×n<B,一般情况下取B=N0.6,N为样 本个数。建立最大互信息矩阵,计算公式如下:

M(D)i,j=I*(D,i,j)logmin{i,j}

其中,M(D)i,j为矩阵的第i行第j列的值,表示在不同的网格划 分条件下得到的最大互信息值,且i,j满足0<i<B,0<j<B,i×j<B。

本发明采用最大信息系数的评价指标,评价特征之间的非线性关 系的强弱,最大信息系数MIC(D)计算公式如下:

MIC(D)=MAXi·j<B(n){M(D)i,j}

每两个变量之间都会计算得出有一个MIC值,通过MIC对特征之 间的非线性关系进行度量。

S3、根据最大信息系数,删除初始特征子集中的冗余特征,得到 低维特征子集。

图3示出了本发明的一种基于最大信息系数的特征选择方法的步 骤S3的流程图。

参照图3,步骤S3的具体过程为:

S31,选择最大信息系数超过设定阈值的特征对;

S32,将相互关联的特征对组成冗余特征集合;

S33,选取每个冗余特征集合中贡献度最大的特征作为子特征, 并将所述每个冗余特征集合中的其他特征删除;

S34,将每个所述冗余特征集合的子特征组成所述低维特征子集。

以下实施例将具体描述上述过程。

通过MIC值衡量非线性关系,认为当MIC≥0.8时,变量之间有着 强的非线性关系,意味着这两个变量是相互冗余的。由于特征都是成 对出现的,那么把相互关联的特征放到一起,将会得到由特征对组成 的集合,每个集合都可以认为是冗余特征集合。这些特征之间都有着 很强的非线性关系,然后选出一个最具代表性的特征,来代替其它冗 余特征。

假设一个特征对集合中有k个特征f1,f2......fk,其中特征fi和fj之 间的MIC值为mij,且只保留mij>0.8的值,其他特征对之间的MIC值设 置为0,如此会得到一个k×k的矩阵,其中元素只包含0和大于0.8的数 值,矩阵如下:

f1f2...fk

对矩阵的每一列求和,得到一组数值M1,M2......Mk,其中的每一个 值代表特征fi在这个矩阵(特征集合)中的贡献度,值越大表示fi包 含的信息越多,可以代表整个特征集合包的信息,那么其它特征就可 以被删除。对每一个特征集合做相同的操作,这样将会删除大量的冗 余特征,得到最终的低维特征子集。

在本发明的另一个实施例中,提供了一种数据分类方法。

图4示出了本发明的一种基于上述特征选择方法进行数据分类的 方法的流程图。

参照图4,该方法具体包括:

S101,根据上述的特征选择方法对数据进行选择。

使用上述的基于最大信息系数的特征选择方法,对数据进行特征 选择,从而将冗余特征删除,从而可以减少数据的计算量,避免存储 资源以及计算资源的浪费。

S102,将选择后的数据通过训练形成模型。

本实施例增量式支持向量机模型对数据进行训练。

首先,选择支持向量机模型是因为它可以很好的处理连续的数值 特征,而且具有良好的鲁棒性,对于流量分类来说是最好的选择。其 次,由于支持向量机模型的训练过程需要消耗大量的时间,而且每一 次的更新需要遍历所有的数据,这带来许多附加的消耗,增量式的更 新方法可以很好的解决这个问题。

支持向量机是定义在特征空间上的间隔最大的线性分类器,通过 核技巧的运用,使它成为实质上的非线性分类器。通过间隔最大化方 法学习到的分类超平面为:

w·x+b=0

以及相应的分类决策函数为

f(x)=sign(w·x+b)

其中x为输入样本,w为权重向量,b为偏置。

通过最大化间隔可以得到下面的最优化问题:

min12||w||2

s.t.yi(w·xi+b)-1≥0,i=1,2,...,N

其中N为样本个数。上面的最优化问题的一个问题是只能处理线 性可分问题,但是实际问题中很难直接提供线性可分的数据,因此一 般采用软间隔支持向量机模型,可以很好地处理线性不可分数据,其 最优化问题如下:

min12||w||2+CΣi=1Nξi

s.t.yi(w·xi+b)≥1-ξi,i=1,2,...,N

ξi≥0,i=1,2,...,N

其中ξi为松弛变量,作用于第i个样本,C>0称为惩罚参数, 一般由应用问题决定,C值大时对误分类的惩罚增大,C值小时对误 分类的惩罚减小。最小化目标函数包含两层含义:使尽量小即 间隔尽量大,同时使误分点的个数尽量少,C是调和二者的系数。

通过求解最优化问题可以得到支持向量以及w和b,即产生分类 超平面w·x+b=0。本发明使用增量式的更新方式,可以大大减少时间 复杂度。

对于增量式的更新方法,一般地根据需要将训练数据分成若干 份,选择其中一份进行训练,输出一组支持向量,将本次支持向量加 入到第二份数据中继续训练,可以得到一组支持向量,如此循环往复 知道遍历所有数据得到最终的支持向量并得到分类超平面 w*"x+b*=0。

S103,通过所述模型对待测数据进行识别。

通过增量式支持向量机模型的训练得到一个分类超平面:

w*·x+b*=0

并且决策函数为:

f(x)sign(w*·x+b*)=0w*·x+b*01w*·x+b*>0

当待测样本到来时,只需提取最优特征子集中的特征,然后通过 决策函数f(x)进行判断。

当旧的模型分类器性能下降时,可以通过增量式的方法对模型进 行更新,得到适用于新数据的新模型。

在本发明的又一个实施例中,提供了一种基于最大信息数的特征 选择装置。

图5示出了本发明的一种基于最大信息系数的特征选择装置1001 的结构框图。

参照图5,基于最大信息系数的特征选择装置1001包括:

初始特征形成模块100,基于互信息准则将原始特征进行排序, 并将低于阈值的特征删除,形成初始特征子集;

最大信息系数计算模块200,计算在初始特征子集中的特征之间 的最大信息系数;

特征选择模块300,根据最大信息系数,删除所述初始特征子集 中的冗余特征,得到低维特征子集。

图6示出了本发明的一种基于最大信息系数的特征选择装置1001 的最大信息数计算模块200的结构框图。

参照图6,最大信息系数计算模块200包括:

坐标系建立单元201,将所述初始特征子集中的特征放置在二维 坐标系中;

网格划分单元202,对所述二维坐标系进行多次网格划分;

最大互信息计算单元203,计算在每次网格划分下,每一块网格 中的特征之间的互信息值,计算每次网格划分的最大互信息值,并建 立最大互信息矩阵;

最大信息系数计算单元204,通过最大互信息矩阵计算所述初始 特征子集中的特征的最大信息系数。

在本发明的又一个实施例中。提供了一种数据分类系统。

图7示出了本发明的一种基于上述特征选择装置的数据分类装置 的结构框图。

参照图7,本实施例的数据分类系统包含上述的基于最大信息系 数的特征选择装置1001,还包括:

模型训练模块1002,将选择后的数据通过训练形成模型;

识别模块1003,通过所述模型对待测数据进行识别。

通过上述实施例可知,使用本发明所述特征选择、分类方法及其 装置,具有以下有益效果:

1、对特征选择采用删除不相关特征和删除冗余特征两种方式, 从而能够将网络量中的大量冗余特征进行删除,从而降低了数据维 数,便于在进行数据处理中减少了处理时间和空间,避免了资源的浪 费;

2.采用最大信息系数的方法删除冗余特征,可以同时将特征集 中的线性相关和非线性相关的冗余特征去除,从而可以很好地降低数 据的维数;

3.使用本发明的特征选择方法后的特征进行分类,可以减少数 据的处理量,从而减少了计算的复杂度,并且不会影响数据的计算精 度。

虽然结合附图描述了本发明的实施方式,但是本领域技术人员可 以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样 的修改和变型均落入由所附权利要求所限定的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号