首页> 中国专利> 在类间散度和总散度阵秩空间中求解线性鉴别矢量的方法

在类间散度和总散度阵秩空间中求解线性鉴别矢量的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公布了一种在类间散度和总散度阵秩空间中求解线性鉴别矢量的方法，所述方法包括：利用训练样本及其所属类别信息构造三个矩阵，利用构造的三个矩阵和样本矩阵计算一个新矩阵，对新矩阵的列矢量进行正交化过程得到相互正交的鉴别矢量。在识别阶段将样本特征和待识别特征分别投影到计算出的线性鉴别矢量上，得到最佳鉴别特征，然后计算待识别特征和样本特征的距离，将待识别样本归入最小距离对应的人脸类别中。本发明所得线性鉴别矢量和特征互不相关，消除了线性鉴别特征间的冗余，提高了所得鉴别特征的鉴别能力。

著录项

公开/公告号CN101984455A

专利类型发明专利
公开/公告日2011-03-09

原文格式PDF
申请/专利权人南京信息工程大学;
展开▼

申请/专利号CN201010568119.0
发明设计人贺云辉;
展开▼

申请日2010-12-01
分类号G06K9/62(20060101);
代理机构32200 南京经纬专利商标代理有限公司;
代理人许方
地址 210044 江苏省南京市宁六路219号
入库时间 2023-12-18 01:43:44

法律信息

法律状态公告日

法律状态信息

法律状态
2016-11-23

专利权的转移 IPC(主分类):G06K9/62 登记生效日:20161101 变更前: 变更后: 申请日:20101201

专利申请权、专利权的转移
2013-05-08

授权

授权
2011-04-20

实质审查的生效 IPC(主分类):G06K9/62 申请日:20101201

实质审查的生效
2011-03-09

公开

公开

说明书

技术领域

发明涉及一种在类间散度和总散度阵秩空间中求解线性鉴别矢量的方法，具体是小样本条件下的高维样本的线性鉴别特征抽取和识别方法。本发明可用于机器学习和模式识别领域，可用于小样本条件下的各种高维数据的特征抽取和识别。

背景技术

特征抽取技术是模式识别中的一个重要内容，通常可分为监督和非监督特征抽取两大类。非监督的特征抽取方法可分为主分量分析和独立分量分析两类，由于没有用到训练样本所属的类别信息，因此难以获得对分类识别有用的鉴别特征。监督的鉴别特征抽取利用了每个样本所属的类别这一重要信息，因此可以得到有利于分类的鉴别特征。

特征抽取常用的是基于某个准则的特征抽取方法，此类方法通过最优化一个准则函数得到一个变换阵，将原始高维样本特征降维至低维子空间，使在低维子空间中的特征更紧凑，有更好的可分性，因此也称之为子空间方法。

识别阶段针对所抽取到的特征设计适合的分类方法，将样本特征空间分为各个区域，然后根据待识别样本特征所在的区域将其归入对应类别中。特征抽取阶段得到高维样本的鉴别特征后，常用最近邻分类器分类。

在基于子空间的线性特征抽取方法中，常见的是基于Fisher准则的线性鉴别分析(简称FLDA)方法。FLDA方法通过最优化Fisher准则，使得到的鉴别矢量对样本降维后，在低维空间样本特征的类间散度最大以及类内散度最小，从而所得鉴别特征在降维变换后有最好的类可分性。但是当样本的维数大于类内散度阵的秩时，则求解最佳鉴别特征存在病态奇异问题，此问题也称为小样本条件下的病态奇异问题。目前已有的解决小样本病态奇异问题的方法中，规整化方法对奇异的类内散度阵加上一个小的扰动阵使其可逆，广义逆方法则利用类内散度阵的广义逆取代逆矩阵。对高维的小样本问题，这两种方法的计算量较大，难以实用。基于零空间的方法需要计算类内散度阵的零空间，计算量也较大，难以应用到样本数较多的场合；基于主分量分析和零空间的方法首先对样本进行主分量分析，将样本降维，再应用零空间方法得到线性鉴别特征，虽然降低了计算量，但是对大量高维样本进行主分量分析存在计算量大和数值不稳定的问题。在FLDA方法中计算最佳鉴别矢量等效于求解广义特征方程的特征矢量，而对高维数据求解特征矢量存在计算量大和数值计算不稳定的问题。鉴别共同矢量方法(DCV)在类内散度阵的零空间中求解鉴别矢量最优化类间散度，克服了FLDA的小样本问题，计算量小且数值稳定。其整个计算过程分两步完成：首先在每个类别中任选一个样本投影到类内散度阵的零空间中得到该类别的共同矢量，然后利用共同矢量最优化类间散度得到最佳Fisher鉴别矢量。为降低计算量和增加数值稳定性，进一步利用正交化过程代替求解特征方程。然而改进的DCV方法需要进行一次高维数据的降维，并进行两次正交化过程，这样也增加了计算的复杂度。此外DCV方法仅在类内散度阵的零空间中求解最佳鉴别矢量来最优化Fisher准则，当类内散度阵的零空间维数较少时难以搜索到最优的鉴别矢量。

发明内容

本发明目的是针对现有线性鉴别特征抽取技术存在难以搜索到全部最佳鉴别矢量的缺陷提供一种线性鉴别特征抽取方法。

本发明为实现上述目的，采用如下技术方案：

在类间散度和总散度阵秩空间中求解线性鉴别矢量的方法，其特征在于包括如下步骤：

(1)、构造矩阵A、B和D

有C个类别的样本，第i个类别有N_i个训练样本，i＝1，2...，C，总样本数为将采集到的样本用矢量表示，即表示第i个类别中的第j个样本；

构造N行N-1列的矩阵A为：

$A = (\begin{matrix} - 1_{1 \times N - 1} \\ I_{N - 1 \times N - 1} \end{matrix}),$

其中-1_1×N-1表示1行N-1列的每个元素均为-1的行矢量；I_N-1×N-1表示N-1行N-1列的单位矩阵；

构造N-1行C列的矩阵B为：

构造C行C-1列的矩阵D为：

$D = (\begin{matrix} - \frac{1}{N_{1}} & - \frac{1}{N_{1}} & . . . & - \frac{1}{N_{1}} \\ \frac{1}{N_{2}} & 0 & . . . & . . . \\ 0 & \frac{1}{N_{3}} & . . . & 0 \\ 0 & 0 & O & 0 \\ 0 & 0 & . . . & \frac{1}{N_{C}} \end{matrix}),$

(2)、计算矩阵V

$V = [x_{1}^{1}, x_{2}^{1}, . . ., x_{1}^{2}, . . ., x_{1}^{C}, . . ., x_{N_{C}}^{C}] ABD,$

其中表示第i个类别中的第j个样本，j＝1，2，...，N_i；

(3)、对矩阵V的列矢量进行正交化过程得到C-1个鉴别矢量w₁，w₂...，w_C-1，由其构成变换矩阵W＝[w₁，w₂...，w_C-1]；

(4)、将训练样本和待识别样本分别投影到线性鉴别矢量上得到样本的最佳线性鉴别特征：

$y_{j}^{i} = W^{T} x_{j}^{i}$

其中表示第i个类别中的第j个训练样本的最佳线性鉴别特征，W^T表示矩阵W的转置矩阵；

将待识别样本x投影到C-1个最佳线性鉴别矢量上得到鉴别特征y＝W^Tx；

(5)、计算训练样本鉴别特征和待识别样本鉴别特征的距离，将待识别样本归入最小距离对应的训练样本所属的类别中：

计算和y的最小距离：i＝1，2，...，C，j＝1，2，...，N_i，其中表示和y的欧氏距离，min表示求最小距离；识别的准则是将待识别样本x归入最小距离对应的训练样本所属的类别中

本发明的优点是(1)无需计算广义特征方程，只需进行正交化过程就可得到的线性鉴别矢量，克服了小样本条件下求解线性鉴别矢量面临的求解病态奇异广义特征方程的问题。计算过程中，只需利用训练样本及其所属类别信息构造三个矩阵，再利用训练样本计算一个矩阵V，对矩阵V的列矢量进行正交化过程得到最佳线性鉴别矢量。(2)本发明的方法是在总散度阵的秩空间中求解鉴别矢量来最优化类间散度阵，当类内散度阵零空间维数较少时，本发明的方法仍然能在较大空间中搜索到最佳线性鉴别矢量。(3)由于使用正交化过程计算线性鉴别矢量，所得线性鉴别矢量和特征互不相关，消除了线性鉴别特征间的冗余，提高了所得鉴别特征的鉴别能力。

附图说明

图1是本发明实现步骤的计算流程图。

具体实施方式

下面结合附图1对本发明的技术方案进行详细说明：

(1)、构造矩阵A、B和D；

(2)、计算矩阵V；

(3)、对矩阵V的列矢量进行正交化过程得到C-1个鉴别矢量w₁，w₂...，w_C-1，由其构成变换矩阵W＝[w₁，w₂...，w_C-1]；

(4)、将训练样本和待识别样本分别投影到线性鉴别矢量上得到样本的最佳线性鉴别特征；

(5)、计算训练样本鉴别特征和待识别样本鉴别特征的距离，将待识别样本归入最小距离对应的训练样本所属的类别中。

实施例：

采用公共的AT&T标准人脸图像数据库。AT&T库包括40个人脸类别，每个人脸类别有10张不同人脸姿态、表情和面部细节的人脸图像，图像大小为112×92。

数据预处理：将112×92的图像矩阵进行下采样，大小变为28×23。按行拉直为644维的列矢量，并将图像的像素值归一化到0-1之间。将每类人脸样本随机分成两部分，一部分作为训练样本，一部分作为测试样本。

有C＝40个类别的样本，第i个类别的训练样本数为N_i，N_i的取值范围为N_i＝2，3，4，5，6，7，8，9，其中i＝1，2...，40，总样本数为首先构造矩阵A、B和D：

构造N行N-1列的矩阵A为

$A = (\begin{matrix} - 1_{1 \times N - 1} \\ I_{N - 1 \times N - 1} \end{matrix})$

其中-1_1×N-1表示1行N-1列的每个元素均为-1的行矢量；I_N-1×N-1表示N-1行N-1列的单位矩阵；

构造N-1行40列的矩阵B为

构造40行39列的矩阵D为

然后计算矩阵V：

$V = [x_{1}^{1}, x_{2}^{1}, . . ., x_{1}^{2}, . . ., x_{1}^{C}, . . ., x_{N_{C}}^{C}] ABD$

其中表示第i个类别中的第j个样本，i＝1，2...，40，j＝1，2，...，N_i

对矩阵V的列矢量进行正交化过程得到39个鉴别矢量w₁，w₂...，w₃₉，由其构成变换矩阵W＝[w₁，w₂...，w₃₉]。

将训练样本和待识别样本分别投影到线性鉴别矢量上得到样本的最佳线性鉴别特征

$y_{j}^{i} = W^{T} x_{j}^{i}$

其中表示第i个类别中的第j个训练样本的最佳线性鉴别特征，W^T表示矩阵W的转置矩阵。将待识别样本x投影到最佳线性鉴别矢量上得到鉴别特征y＝W^Tx。

最后计算训练样本鉴别特征和待识别样本鉴别特征的距离，将待识别样本归入最小距离对应的训练样本所属的类别中：

计算和y的最小距离：i＝1，2，...，40，j＝1，2，...，N_i。其中表示和y的欧氏距离，min表示求最小距离；识别的准则是将待识别样本x归入最小距离对应的训练样本所属的类别中。

表1是用AT&T人脸数据库测试的结果，共进行8次实验。对每类人脸，每次实验随机选取2到9个样本作为训练样本，剩下的样本作为测试样本，每次实验重复10次，计算平均识别率。将本发明的方法和Fisherface方法的结果比较，每次实验两种方法均取相同的训练样本和测试样本，本发明的方法均优于Fisherface方法。

表1平均识别率(％)

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 在类间散度和总散度阵秩空间中求解线性鉴别矢量的方法 [P] . 中国专利： CN101984455B . 2013.05.08
2. 在类间散度和总散度阵秩空间中求解线性鉴别矢量的方法 [P] . 中国专利： CN101984455A . 2011-03-09
3. Movement estimation system video index image key selection having movement vector field calculated/simplified parameters modelled using movement vector/divergence factor with robust linear regression finding movement parameters. [P] . 法国专利： FR2833797A1 . 2003-06-20

机译：运动估计系统视频索引图像关键字选择，具有使用运动矢量/散度因子建模的运动矢量场/简化的参数，并使用鲁棒的线性回归找到运动参数。
4. Object e.g. heart, movement analysis implementing method for diagnosing heart disease, involves computing divergence value from vector field which is formed from displacement vectors for analysis of movement of object [P] . 德国专利： DE102005061359A1 . 2007-07-05

机译：对象例如心脏，一种用于诊断心脏病的运动分析实现方法，涉及从由位移矢量形成的矢量场计算散度值，以分析物体的运动
5. Method and apparatus for solving dense systems of linear equations with an iterative method that employs partial multiplications using rank compressed SVD basis matrices of the partitioned submatrices of the coefficient matrix [P] . 美国专利： US5548798A . 1996-08-20

机译：通过迭代方法求解线性方程组的密集系统的方法和装置，该迭代方法使用系数矩阵的分区子矩阵的秩压缩的SVD基矩阵进行部分乘法