首页> 中国专利> 一种最小最大局部结构信息的特征选择方法

一种最小最大局部结构信息的特征选择方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种最小最大局部结构信息的特征选择方法，包括以下步骤：构建一个全局图G和对应的权矩阵W；根据A）步骤中的全局图G和权矩阵W，构建一个近邻图G

著录项

公开/公告号CN102982346A

专利类型发明专利
公开/公告日2013-03-20

原文格式PDF
申请/专利权人湖州师范学院;
展开▼

申请/专利号CN201210513122.1
发明设计人蒋云良;胡文军;顾永跟;王娟;
展开▼

申请日2012-11-30
分类号
代理机构杭州宇信知识产权代理事务所(普通合伙);
代理人韩洪
地址 313000 浙江省湖州市吴兴区学士路1号
入库时间 2024-02-19 17:47:45

法律信息

法律状态公告日

法律状态信息

法律状态
2015-10-28

授权

授权
2013-04-17

实质审查的生效 IPC(主分类):G06K9/62 申请日:20121130

实质审查的生效
2013-03-20

公开

公开

说明书

【技术领域】

本发明涉及特征选择的方法，特别涉及最小最大局部结构信息的特征选择方法。

【背景技术】

在许多机器学习任务中，常常会碰到许多高维数据，如计算视觉和模式识别中的人脸图像、数据挖掘中的文本数据等，在处理高维数据时，需要很长的处理时间和可观的存储空间，所以在进行分类、聚类等机器学习任务前，需要对高维数据进行降维预处理，如特征选择和特征提取，目的是获得一个低维的特征子集。

一般地，特征选择分为捆绑式和滤波式，捆绑式是利用现有的分类器来评价各个特征子集，从而找出最优的特征子集。对于某一个特定的分类器而言，捆绑法可以获得较好效果，但它需要分类器在各个特征子集进行训练，导致计算复杂度非常高；滤波式则直接利用一个准则函数，如Fisher Score、Laplacian Score等，来评价每个特征的优劣，滤波式特征选择方法又分为无监督和有监督两种，实际应用中，由于获取标签数据非常难且成本高，而获得无标签数据很容易，所以无监督滤波式特征选择方法一直得到很大的关注。

在机器学习中，流行学习一直是关注的焦点，为了反映潜在的数据流行结构，提出了诸如ISOMAP、拉普拉斯特征映射、局部线性嵌入、局部保持投影和近邻保持投影等特征提取方法和无监督的特征选择方法Laplacian Score， Laplacian Score利用局部不变性保证特征子集保持数据流行结构，但局部结构信息之间的关系并未考虑，而这种局部结构信息间的关系在机器学习任务扮演重要作用，因此所获得的特征子集所具备的表示能力有所欠缺。

【发明内容】

本发明的目的就是解决现有技术中的问题，提出一种最小最大局部结构信息的特征选择方法，提供一种无监督的特征选择准则，使所获得的特征子集具有更好的表示能力。

为实现上述目的，本发明提出了一种最小最大局部结构信息的特征选择方法，包括如下步骤：

A)构建一个全局图G和对应的权矩阵W，

$W_{ij} = \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{{2 t}^{2}}) - - - (1)$

其中，x_i和x_j为样本点，t为常量；

B)根据A)步骤中的全局图G和权矩阵W，构建一个近邻图G_w和对应的权矩阵 W_w，

其中，N(x_i)和N(x_j)分别表示样本点x_i和x_j的k个近邻子集；

C)根据B)步骤中计算得到的权矩阵W_w，计算权矩阵A＝W_w-αW，对角矩阵D 和拉普拉斯矩阵L＝D-A，其中0≤α≤1；

D)计算各个特征的最小最大局部结构信息的拉普拉斯指标MMLS_r

${MMLS}_{r} = \frac{{\tilde{f}}_{r}^{T} L {\tilde{f}}_{r}}{{\tilde{f}}_{r}^{T} D {\tilde{f}}_{r}} - - - (3);$

E)根据D)步骤中获得的拉普拉斯指标MMLS_r大小，依次选出d个最小拉普拉斯指标MMLS_r对应的特征，构成特征子集。

作为优选，所述D)步骤中，f_r＝[X_r1，Λ,X_rm]^T是由数据集矩阵的第r个特征构成的向量，是第r个特征的数学期望。。

作为优选，所述D)步骤中提出的最小最大信息准则MMLS_r，

为 ${MMLS}_{r} = \frac{(1 - α) Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{b, ij}}{Var (f_{r})} - - - (4) .$

作为优选，所述D)步骤中Var(f_r)是第r个特征的方差，W_w和W_b是权矩阵，所述0≤α≤1，

且

作为优选，所述D)步骤中提出的最小最大信息准则MMLS_r，包括如下过程：因为W_w+W_h＝W，故

$(1 - α) Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{b, ij}$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} (W_{b, ij} + W_{w, ij})$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{ij}$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} (W_{wij} - α W_{ij})$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} A_{ij} - - - (6)$

$= Σ_{i, j = 1}^{m} (2 f_{ri}^{2} A_{ij} - 2 f_{ri} f_{rj} A_{ij})$

$= 2 f_{r}^{T} D f_{r} - 2 f_{r}^{T} {Af}_{r}$

$= 2 f_{r}^{T} L f_{r}$

$= 2 {\tilde{f}}_{r}^{T} L \tilde{f}$

其中，A＝W_w-αW，D为对角矩阵且L为拉普拉斯矩阵且L＝D-A， ${\tilde{f}}_{ri} = f_{ri} - μ_{r},$

因为 $Var (f_{r}) = Σ_{i = 1}^{m} {(f_{ri} - μ_{r})}^{2} D_{ii}$ 和 $μ_{r} = \frac{Σ_{i = 1}^{m} f_{ri} D_{ii}}{Σ_{i = 1}^{m} D_{ii}} = \frac{f_{r}^{T} D 1}{1^{T} D 1},$

故 $Var (f_{r}) = Σ_{i = 1}^{m} {\tilde{f}}_{ri}^{2} D_{ii} = {\tilde{f}}_{r}^{T} D {\tilde{f}}_{r}$

因计算各特征性能时，式（4）分子项，即式（6）都有常数2，故可省去，即得到步骤三中的式（3）。

本发明的优点是：本发明提供一种无监督的特征选择准则，通过引入局部内结构信息和局部间结构信息，通过最小局部内结构信息来保持各类数据潜在的流行结构，通过最大局部间结构信息来释放类之间的信息，从而选择出更具表示能力的特征子集。

【附图说明】

图1是本发明一种最小最大局部结构信息的特征选择方法的应用示意图；

图2是本发明一种最小最大局部结构信息的特征选择方法得到的分类性能于COIL20数据集的示意图；

图3-a到图3-g是本发明一种最小最大局部结构信息的特征选择方法聚类性能于PIE数据集的示意图；其中：图3-a是本发明于PIE数据集10类的示意图；图3-b是本发明于PIE数据集20类的示意图；图3-c是本发明于PIE数据集30类的示意图；图3-d是本发明于PIE数据集40类的示意图；图3-e是本发明于PIE数据集50类的示意图；图3-f是本发明于PIE数据集60类的示意图；图3-g是本发明于PIE数据集68类的示意图。

【具体实施方式】

实施例一

参阅图1和图2，在真实的COIL20数据集上，利用本发明一种最小最大局部结构信息的特征选择方法进行特征选择获得相应的特征子集，然后再进行分类任务；本发明依次包括以下步骤：

A)构建一个全局图G和对应的权矩阵W，

$W_{ij} = \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{{2 t}^{2}}) - - - (1)$

其中，x_i和x_j为样本点，t为常量；

B)根据A)步骤中的全局图G和权矩阵W，构建一个近邻图G_w和对应的权矩阵 W_w，

其中，N(x_i)和N(x_j)分别表示样本点x_i和x_j的k个近邻子集；

C)根据B)步骤中计算得到的权矩阵W_w，计算权矩阵A＝W_w-αW，对角矩阵D 和拉普拉斯矩阵L＝D-A，其中0≤α≤1；

D)计算各个特征的最小最大局部结构信息的拉普拉斯指标MMLS_r

${MMLS}_{r} = \frac{{\tilde{f}}_{r}^{T} L {\tilde{f}}_{r}}{{\tilde{f}}_{r}^{T} D {\tilde{f}}_{r}} - - - (3);$

E)根据D)步骤中获得的拉普拉斯指标MMLS_r大小，依次选出d个最小拉普拉斯指标MMLS_r对应的特征，构成特征子集。

所述D)步骤中，f_r＝[X_r1，Λ,X_rm]^T是由数据集矩阵的第r个特征构成的向量，是第r个特征的数学期望，所述D)步骤中提出的最小最大信息准则MMLS_r，

为 ${MMLS}_{r} = \frac{(1 - α) Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{b, ij}}{Var (f_{r})} - - - (4),$

所述D)步骤中Var(f_r)是第r个特征的方差，W_w和W_b是权矩阵，所述0≤α≤1，

且

所述D)步骤中提出的最小最大信息准则MMLS_r，包括如下过程：因为 W_w+W_b＝W，故

$(1 - α) Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{b, ij}$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} (W_{b, ij} + W_{w, ij})$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{ij}$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} (W_{wij} - α W_{ij})$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} A_{ij} - - - (6)$

$= Σ_{i, j = 1}^{m} (2 f_{ri}^{2} A_{ij} - 2 f_{ri} f_{rj} A_{ij})$

$= 2 f_{r}^{T} D f_{r} - 2 f_{r}^{T} {Af}_{r}$

$= 2 f_{r}^{T} L f_{r}$

$= 2 {\tilde{f}}_{r}^{T} L \tilde{f}$

其中，A＝W_w-αW，D为对角矩阵且L为拉普拉斯矩阵且 L＝D-A， ${\tilde{f}}_{ri} = f_{ri} - μ_{r},$

因为 $Var (f_{r}) = Σ_{i = 1}^{m} {(f_{ri} - μ_{r})}^{2} D_{ii}$ 和 $μ_{r} = \frac{Σ_{i = 1}^{m} f_{ri} D_{ii}}{Σ_{i = 1}^{m} D_{ii}} = \frac{f_{r}^{T} D 1}{1^{T} D 1},$ 故

$Var (f_{r}) = Σ_{i = 1}^{m} {\tilde{f}}_{ri}^{2} D_{ii} = {\tilde{f}}_{r}^{T} D {\tilde{f}}_{r} - - - (7)$

因计算各特征性能时，式（4）分子项，即式（6）都有常数2，故可省去，即得到步骤三中的式（3）。

如图2所示（MMLS对应本发明方法），由于本发明同时引入了局部内结构信息和局部间结构信息，通过最小局部内结构信息来保持各类数据潜在的流行结构，通过最大局部间结构信息来释放类之间的信息，使得最近邻分类器1-NN在特征子集上获得好的分类性能。

实施例二

参阅图1和图3-a～3-g，在真实的PIE数据集上，利用本发明进行特征选择获得相应的特征子集，然后再进行聚类任务，本发明依次包括如下步骤：

A)构建一个全局图G和对应的权矩阵W，

$W_{ij} = \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{{2 t}^{2}}) - - - (1)$

其中，x_i和x_j为样本点，t为常量；

B)根据A)步骤中的全局图G和权矩阵W，构建一个近邻图G_w和对应的权矩阵 W_w，

其中，N(x_i)和N(x_j)分别表示样本点x_i和x_j的k个近邻子集；

C)根据B)步骤中计算得到的权矩阵W_w，计算权矩阵A＝W_w-αW，对角矩阵D 和拉普拉斯矩阵L＝D-A，其中0≤α≤1；

D)计算各个特征的最小最大局部结构信息的拉普拉斯指标MMLS_r

${MMLS}_{r} = \frac{{\tilde{f}}_{r}^{T} L {\tilde{f}}_{r}}{{\tilde{f}}_{r}^{T} D {\tilde{f}}_{r}} - - - (3);$

E)根据D)步骤中获得的拉普拉斯指标MMLS_r大小，依次选出d个最小拉普拉斯指标MMLS_r对应的特征，构成特征子集。

所述D)步骤中，f_r＝[X_r1，Λ,X_rm]^T是由数据集矩阵的第r个特征构成的向量，是第r个特征的数学期望，所述D)步骤中提出的最小最大信息准则MMLS_r，

为 ${MMLS}_{r} = \frac{(1 - α) Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{b, ij}}{Var (f_{r})} - - - (4),$

所述D)步骤中Var(f_r)是第r个特征的方差，W_w和w_b是权矩阵，所述0≤α≤1，

且

所述D)步骤中提出的最小最大信息准则MMLS_r，包括如下过程：

$(1 - α) Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{b, ij}$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} (W_{b, ij} + W_{w, ij})$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{w, ij} - α Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} W_{ij}$

$= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} (W_{wij} - α W_{ij})$

因为W_w+W_b＝W，故 $= Σ_{i, j = 1}^{m} {(f_{ri} - f_{rj})}^{2} A_{ij} - - - (6)$

$= Σ_{i, j = 1}^{m} (2 f_{ri}^{2} A_{ij} - 2 f_{ri} f_{rj} A_{ij})$

$= 2 f_{r}^{T} D f_{r} - 2 f_{r}^{T} {Af}_{r}$

$= 2 f_{r}^{T} L f_{r}$

$= 2 {\tilde{f}}_{r}^{T} L \tilde{f}$

其中，A＝W_w-αW，D为对角矩阵且L为拉普拉斯矩阵且L＝D-A， ${\tilde{f}}_{ri} = f_{ri} - μ_{r},$ 因为 $Var (f_{r}) = Σ_{i = 1}^{m} {(f_{ri} - μ_{r})}^{2} D_{ii}$ 和 $μ_{r} = \frac{Σ_{i = 1}^{m} f_{ri} D_{ii}}{Σ_{i = 1}^{m} D_{ii}} = \frac{f_{r}^{T} D 1}{1^{T} D 1},$ 故

$Var (f_{r}) = Σ_{i = 1}^{m} {\tilde{f}}_{ri}^{2} Dii = {\tilde{f}}_{r}^{T} D {\tilde{f}}_{r} - - - (7)$

因计算各特征性能时，式（4）分子项，即式（6）都有常数2，故可省去，即得到步骤三中的式（3）。

如图3所示（MMLS对应本发明方法），同时引入了局部内结构信息和局部间结构信息，通过最小局部内结构信息来保持各类数据潜在的流行结构，通过最大局部间结构信息来释放类之间的信息，使得K-Means聚类方法在特征子集上获得好的聚类性能。

上述实施例是对本发明的说明，不是对本发明的限定，任何对本发明简单变换后的方案均属于本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种最小最大局部结构信息的特征选择方法 [P] . 中国专利： CN102982346B . 2015.10.28
2. 一种基于最大相关最小冗余的多标记特征选择方法及装置 [P] . 中国专利： CN110766042A . 2020-02-07
3. Injection valve controlling method for internal combustion engine, involves determining preset analytic function based on pairs parameter and adjusting current signal based on characteristic point and local maximum and minimum of function [P] . 德国专利： DE102004063295A1 . 2006-07-20

机译：内燃机的喷射阀控制方法，包括：基于对参数确定预设的解析函数，并基于特征点和局部局部最大值和最小值调节电流信号
4. Input image e.g. palm imprint image, density converting method for e.g. image processing improving system, involves converting minimum local and maximum local values into minimum and maximum common values, and reconstructing input image [P] . 法国专利： FR2905188A1 . 2008-02-29

机译：输入图片，例如掌纹图像，密度转换方法图像处理改进系统，涉及将最小局部和最大局部值转换为最小和最大公用值，并重建输入图像
5. Defining image features using local spatial maxima and minima [P] . 英国专利： GB2474281A . 2011-04-13

机译：使用局部空间最大值和最小值定义图像特征