首页> 中国专利> 基于拒识的随机子空间的ECOC编码分类方法

基于拒识的随机子空间的ECOC编码分类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于拒识的随机子空间的ECOC编码分类方法，包括以下步骤：（1）利用ECOC对待分类目标的形状特征进行编码，为每一类待分类目标集合构建一组编码，在每一个编码位上通过随机子空间和支持向量机（SVM）构建若干个SVM分类器；（2）使用ECOC编码方法在每一个编码位中构建若干个SVM分类器的集成分类器，在集成分类器外部设置外部拒绝分类机制，所述集成分类器中基本分类器的分类结果经投票的方法进行决策融合，如果最终结果无法判定该编码位分类目标，通过外部拒绝分类机制予以拒绝分类；按照检测样本与编码矩阵的汉明距离或欧式距离来判断所属分类类别。实验表明，在合理的拒分率范围内，此设计体系可显著提高车型分类的可靠性和准确率。

著录项

公开/公告号CN103246893A

专利类型发明专利
公开/公告日2013-08-14

原文格式PDF
申请/专利权人西交利物浦大学;
展开▼

申请/专利号CN201310088803.2
发明设计人张百灵;潘皓;
展开▼

申请日2013-03-20
分类号G06K9/66(20060101);G06K9/46(20060101);
代理机构32103 苏州创元专利商标事务所有限公司;
代理人范晴
地址 215123 江苏省苏州市工业园区独墅湖高等教育区仁爱路111号
入库时间 2024-02-19 20:03:36

法律信息

法律状态公告日

法律状态信息

法律状态
2016-08-24

授权

授权
2013-09-11

实质审查的生效 IPC(主分类):G06K9/66 申请日:20130320

实质审查的生效
2013-08-14

公开

公开

说明书

技术领域

本发明属于智能图像分析领域，具体涉及一种基于拒识的随机子空间的 ECOC编码分类方法。

背景技术

车型识别系统是智能交通系统的重要组成部分，同时也是计算机视觉、图像处理和模式识别等交叉学科研究的热门课题，因此对车型识别领域相关技术的研究正受到普遍关注。在近些年的模式识别领域中，主要是以提高分类准确率作为系统性能的标准。

目前广泛使用的车型识别方法是利用分类器来区分各种车型，其成功的关键首先是对于各种类型的车辆图像集进行特征描述，其次选择合适的分类器来学习训练样本从而得到模型。一般来说，对于车辆等具有丰富边缘特征的样本，一般是以HOG（边缘梯度直方图）、类HAAR特征、Gabor特征等来进行描述。基于本图片集的实际情况，以HOG作为提取车辆图像特征的方法，以SVM(支持向量机)作为分类器，而目前SVM解决多类分类问题的算法主要有：1-V-R SVMs(One-versus-Rest)、1-V-1 SVMs(one-versus-One)、ECOC(error correct of coding)。相比较其他多类分类，ECOC方法具有纠错的功能，可以提高分类的准确率，因此被广泛应用到SVM的多类分类问题中。

在基于误差编码分类提出之后，科学家在ECOC中编码与解码的研究中提出了新的方法。例如：影响ECOC分类器因素、连续码来进行ECOC 分类等。在目前的车型分类系统中，很多人只把分类正确率作为唯一的评判标准，然而，在很多实际问题中，更为重要的是分类的结果的可靠性。例如，在追捕嫌疑车辆中，如果我们把嫌疑车辆识别为非嫌疑车辆，就会造成犯罪分子逃脱法律的制裁。因此我们应该将无法可靠评估和分类的案例拒绝分类，交给其他工具或专家处理，这样，可以降低错误分类造成的严重后果。本发明因此而来。

发明内容

本发明目的在于提供一种基于拒识的随机子空间的ECOC编码分类方法，解决了现有技术中汽车图像分类可靠性不高、错误分类容易造成的严重后果等问题。

为了解决现有技术中的这些问题，本发明提供的技术方案是：

一种基于拒识的随机子空间的ECOC编码分类方法，其特征在于所述方法包括以下步骤：

（1）获取待分类目标的形状特征；利用ECOC对待分类目标的形状特征进行编码，为每一类待分类目标集合构建一组编码，在每一个编码位上通过随机子空间和支持向量机（SVM）构建若干个SVM分类器；所述SVM 分类器设置内部拒绝分类机制对基本分类器无法分类的待分类目标予以拒绝分类；

（2）使用ECOC编码方法在每一个编码位中构建若干个SVM分类器的集成分类器，在集成分类器外部设置外部拒绝分类机制，所述集成分类器中基本分类器的分类结果经投票(majority voting)的方法进行决策融合，如果最终结果无法判定该编码位分类目标，通过外部拒绝分类机制予以拒绝分类；按照检测样本与编码矩阵的汉明距离或欧式距离来判断所属分类类别。

优选的，所述方法步骤（1）中构造若干个SVM分类器的具体方法包括以下步骤：

1）在训练样本的D维的特征空间中随机选择K维的子空间作为训练样本；

2）利用得到的K维特征训练SVM分类器；

3）重复步骤1）-2）在每一位得到L个不同的SVM分类器；

其中D、K、L为自然数。

本发明技术方案在实际应用中，由于利用HOG提取车辆特征是324维，因此在在324维特征中随即抽取其中的260维作为训练样本。根据实验结果，当分类器的个数为11时整体分类器的效果最佳。因此本发明参数选择为 D=324，K=260，L=11。

优选的，所述方法中ECOC编码方法是假设L是不同类W_i（i=1，2，...N）的编码长度，N为class的个数，存在N×L的编码矩阵C＝{c_hk}，其中c_hk∈{-1,1}， h_i（1，2...L）是编码矩阵中的第i列即第i个分类位，编码矩阵C定义了L 个两类分类问题；把检测样本输入到每一个两类分类器中，得到一个输出向量（output vector），通过比较输出向量和编码矩阵的码字之间的最小汉明距离或欧氏距离得到最终的分类结果（label）。

优选的，所述方法中在对每一个编码位上所有的分类器进行训练时，采用随机子空间方法（Random Subspace）随机抽取一定比例的特征向量进行训练。

优选的，所述方法步骤（1）中内部拒绝分类机制为：

假设：参数ψ_a（+1类）和ψ_b（-1类）是两类分类SVM的验后概率，且满足ψ_a+ψ_b＝1（ψ_a∈[0,1]，ψ_b∈[0,1]）；其中ψ_a越靠近1则表明属于+1类的概率越大，反之则亦然；参数ψ作为衡量分类的信度指标，ψ＝|ψ_a-ψ_b|；θ_e是拒识门限，h_ij是指编码矩阵中第i位（第i个两类分类）的第j个分类器的输出的结果；如果分类器拒绝分类之后将该分类器的输出标记“*”，则：

$h_{ij} = (\begin{matrix} reject & ψ < θ_{e} \\ if \\ \arg \max (ψ_{a}, ψ_{b}) & ψ \geq θ_{e} \end{matrix}) .$

优选的，所述方法步骤（2）中外部拒绝分类机制为在每一个编码位中将若干个基本分类器的分类结果利用投票的方法进行融合后，如果满足：

$t \leq (\begin{matrix} \frac{L}{2} + 1 \\ \frac{L + 1}{2} & L = even \\ if & L = odd \end{matrix});$

其中t为根据具体环境确定的阈值；如果有L个专家都不认为是该类标（label），则对分类结果进行拒绝分类，将该编码位结果标记为0。

本发明的另一目的在于提供一种所述的ECOC编码分类方法在汽车图像分类中的应用。

优选的，所述应用包括以下步骤：

（1）获取待分类的汽车图像，采用边缘梯度直方图方法进行特征提取，获取待分类的汽车图像中汽车的形状特征；

（2）利用ECOC对待分类的汽车图像进行编码，为每一类汽车图像集合构建一组编码，在每一个编码位上通过随机子空间和支持向量机（SVM）构建若干个SVM分类器；所述SVM分类器设置内部拒绝分类机制对基本分类器无法分类的待分类目标予以拒绝分类；

（2）使用ECOC编码方法在每一个编码位中构建若干个SVM分类器的集成分类器，在集成分类器外部设置外部拒绝分类机制，所述集成分类器中基本分类器的分类结果经投票(majority voting)的方法进行决策融合，如果最终结果无法判定该编码位汽车图像，通过外部拒绝分类机制予以拒绝分类；按照检测样本与编码矩阵的汉明距离或欧式距离来判断所属分类类别。

本发明技术方案中采用的纠错输出编码支持向量机的基本原理为：基于纠错输出编码矩阵每列的码位值对训练样本进行重分类，以构造出若干个互不相关的两类分类子支持向量机，并基于最小汉明距离原则决定测试样本的类别归属。与通常的两类分类子支持向量机组合方法相比，基于纠错输出编码原理的子支持向量机组合方法不仅能解决多类分类问题，而且能提高分类模型的整体容错能力，也就是说，对于任意一个样本，即使有部分子支持向量机对其发生分类错误，该样本最终仍能被正确分类。

由于在实际应用中，上述方法并没有考虑到误判对识别系统带来的风险代价，因此本方买那个提出了一种基于拒识的随机子空间的误差编码分类方法。目前纠错编码的发展中大部分围绕着如何设计编码矩阵来作为提高分类的准确率，本文则是从每一个编码位的两类分类入手，以如何提高他们的分类正确率来达到整体的分类准确率的提高。因此，在车型分类系统中引入拒绝分类机制，将可以大大提高系统的可靠性，使得系统误判的概率大大降低，避免由于误判所带来的风险。

本发明提出了一种基于随机子空间的误差编码分类模型。在每一个编码位中，由随机子空间产生若干个不同的SVM分类器，通过SVM的验后概率对每一个基本分类器的结果进行内部拒识。将一些信度不高的样本拒绝参与后续的决策融合，以免对分类结果引入误差。在每一个编码位中，将若干个基本分类器的分类结果通过投票(majority voting)的方法进行融合。在此过程中，又引入外部拒识的方法，对于某些编码位中的结果不满足条件的，我们也同样采取拒识。最终待检测样本的分类结果通过内、外部拒识的方法提高了车型分类结果的精度，并保证了系统分类结果的可靠性。

相对于现有技术中的方案，本发明的优点是：

综上所述，本发明采用特定的图像特征提取方法用于提取车辆图像特征，使用随机子空间方法在每一个编码位中训练若干个基本分类器，在每一个基本分类器和集成分类器中分别加入可靠性评判机制，可靠性不高的对象将被标识，从而拒绝参与后续的分类过程。实验表明，在合理的拒分率范围内，此设计体系可显著提高车型分类的可靠性和准确率。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明车辆图像示例图；

图2为本发明ECOC的分类原理图；

图3为本发明基于ECOC编码分类的集成级联分类架构图；

图4为本发明不同拒分率下的分类准确率与可靠性比较结果图。

具体实施方式

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整，未注明的实施条件通常为常规实验中的条件。

实施例

本发明基于集拒识的随机子空间的误差编码分类方法的具体构成如下：

一、道路车辆图像特征描述

对于如图1所示的苏州地区车辆图像，本发明采用边缘梯度直方图(简称HOG)作为图像特征提取方法，并在特征提取的基础上利用随机子空间的方法构造多个分类器模型。

边缘梯度直方图（HOG）

边缘梯度直方图首先由Dalal和Triggs首先提出，是通过梯度和边缘的方向来密度来描述目标物体的形状。与其他的特征描述方法相比，对图像的几何和光学的形变都有很好的不变性，因此被广泛应用与车辆和行人检测领域当中。

二、基于随机子空间的ECOC编码分类器

在多类分类问题中，通过ECOC的方法将多类分类转化成为若干个两类分类，在每一个两类分类问题中我们利用随机子空间和SVM产生若干个基本分类器。

1、ECOC编码方法

如图2所示，为ECOC的分类原理。定义L是不同类W_i（i=1，2，...N）的编码长度，如果N是class的个数，那么我们就可以得到一个N×L的编码矩阵C＝{c_hk}，其中c_hk∈{-1,1}，h_i（1，2...L）是编码矩阵中的第i列即第i 个分类位，编码矩阵C定义了L个两类分类问题。如图2所示，编码矩阵中N=4，L=5。把检测样本输入到每一个两类分类器中，可以得到一个输出向量（output vector），通过比较输出向量和编码矩阵的码字之间的最小汉明距离或欧氏距离来得到最终的分类结果（label）。

2、基本分类器的构造

其思想是对训练集有放回地抽取训练样本，从而为每一个基本分类器都构造出一个跟训练集同样大小但各不相同的训练集，从而训练出不同的基本分类器，具体方法如下：

1）在训练样本的D维的特征空间中随机选择K维的子空间作为训练样本；

2）利用得到的K维特征训练SVM分类器

3）重复1-2的工作在每一位得到L个不同的SVM分类器

三、集成和级联分类架构

1、总体分类架构

如图3所示，为达到高可靠性分类，采用级联两层内、外部集成分类拒识的架构形式，每一个ECOC编码位是由多个基本分类器的集成分类器（Ensemble）构成，并拥有对每一个基本分类器分类结果的评判机制——内部拒绝分类机制（internal reject option）。在当前编码位中，如果若干个基本分类器的分类结果通过投票(majority voting)的方法进行决策融合，如果最终结果无法判定该编码位分类目标，将被再一次拒识（external reject option）。在最后的反编码过程中，按照检测样本与编码矩阵的汉明距离或欧式距离来判断所属类别。

在对每一个编码位上所有的分类器进行训练时，采用随机子空间方法（Random Subspace）随机抽取一定比例的特征向量进行训练，因此，每个 SVM得到的训练数据都可能是不同的，这样可以加大集成分类器内部的多样性（diversity），而很多研究已经表明，当集成分类器内部的多样性增加时，往往可以得到更好的分类效果。

2、集成分类器内部拒识（拒绝分类）结构

集成分类器的内部拒识（拒绝分类）将由如下方式构成，对于一个K 类的分类问题，首先利用ECOC对其进行编码，为每一类分类图像集构建一组编码，在每一个编码位上通过随机子空间和支持向量机（SVM）得到若干个基本分类器。

定义两个参数ψ_a（+1类）和ψ_b（-1类），他们是两类分类SVM的验后概率，且他们满足ψ_a+ψ_b＝1（ψ_a∈[0,1]，ψ_b∈[0,1]）如果ψ_a越靠近1则代表他属于+1类的概率越大，反之则亦然。我们定义一个参数ψ来衡量分类的信度指标，ψ＝|ψ_a-ψ_b|。设θ_e是拒识门限，h_ij是指编码矩阵中第i位（第i个两类分类）的第j个分类器的输出的结果。如果分类器拒识之后我们在该分类器的输出标记“*”，避免在后续分类器集成中参与集成。

$h_{ij} = (\begin{matrix} reject & ψ < θ_{e} \\ if \\ \arg \max (ψ_{a}, ψ_{b}) & ψ \geq θ_{e} \end{matrix}) - - - (1)$

3、集成分类器外部拒识结构

在每一个编码位中，我们将若干个基本分类器的分类结果利用投票的方法进行融合。如果满足下式，表示如果有L个专家都不认为是该类标（label），我们则对结果进行拒识，将该编码位结果标记为0。

$t \leq (\begin{matrix} \frac{L}{2} + 1 \\ \frac{L + 1}{2} & L = even \\ if & L = odd \end{matrix}) - - - (2)$

在实际的分类应用中，阈值t的大小可以由实际问题环境而定，对于投票机制来说，投票的基分类器的一致性越高，得到的可靠性越高，然而，在一般的集成分类器中，较高的阈值一般会带来较高的拒绝分类比例，使用集成分类器级联的分类架构，可以在确保高可靠性的前提下，把拒绝分类的比例控制在低范围以内。

应用于一个具有5个类别的车辆模型库中，其参数设定如下：

图像特征维数：324。其中，HOG的参数为Cell为8、Bin=9、Angle=180°、 SkipStep=8。

每一个SVM分类器，SVM的g参数设定为0.07、c参数设定为1.0。

随机子空间每次随机抽取80%的特征用于分类器训练，每一个编码位中集成分类器大小设定为11。

图4为采用本发明技术方案的分类结果，可以看到，在合理的拒识分类率下（stage3），本发明的技术方案获得了较高的分类准确率以及较高的分类可靠性。表1给出了在此拒分率下图像的平均分类准确率和传统ECOC 准确率的比较。

表1本发明与传统ECOC分类准确率比较

上述实例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于拒识的随机子空间的ECOC编码分类方法 [P] . 中国专利： CN103246893B . 2016.08.24
2. 基于拒识的随机子空间的ECOC编码分类方法 [P] . 中国专利： CN103246893A . 2013-08-14
3. Computer network packet classification method and system based on a nonoverlapping rule group encoding scheme [P] . 美国专利： US7792120B2 . 2010-09-07

机译：基于非重叠规则组编码方案的计算机网络报文分类方法和系统
4. COMPUTER NETWORK PACKET CLASSIFICATION METHOD AND SYSTEM BASED ON A NONOVERLAPPING RULE GROUP ENCODING SCHEME [P] . 美国专利： US2009196291A1 . 2009-08-06

机译：基于非重叠规则组编码方案的计算机网络数据包分类方法和系统
5. METHOD FOR SEGMENTING CONTENTS OF VIDEO BASED UPON H.261 ENCODING DATA [P] . 日本专利： JPH08298659A . 1996-11-12

机译：基于H.261编码数据的视频内容分类方法