首页> 中国专利> 基于自适应图结构约束子空间学习的特征选择方法及设备

基于自适应图结构约束子空间学习的特征选择方法及设备

摘要

一种基于自适应图结构约束子空间学习的特征选择方法及设备,特征选择方法包括以下步骤:通过基于矩阵分解的子空间学习,在原高维特征空间中挑选若干个特征形成子空间;通过自适应图结构学习,约束所得到子空间具有和原高维特征空间有相同的结构特征。本发明还提出了一种基于自适应图结构约束子空间学习的特征选择系统、终端设备以及计算机可读存储介质。通过将自适应图结构学习应用于特征选择中,确保了特征选择得到的特征子空间与原特征空间有相似的数据结构。本发明联合优化基于矩阵分解的子空间学习过程和自适应图结构学习过程,提升了处理方法的性能。

著录项

  • 公开/公告号CN113159328A

    专利类型发明专利

  • 公开/公告日2021-07-23

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN202110328121.9

  • 申请日2021-03-26

  • 分类号G06N20/00(20190101);G06K9/62(20060101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人房鑫

  • 地址 710049 陕西省西安市咸宁西路28号

  • 入库时间 2023-06-19 11:57:35

说明书

技术领域

本发明属于机器学习领域,具体涉及一种基于自适应图结构约束子空间学习的特征选择方法及设备。

背景技术

随着各种传感器技术的发展,现代传感器系统采集数据的能力越来越强。与此同时,也产生了大量的高维数据。这些高维数据通常含有一些冗余数据、不相关数据和噪音数据,而这些数据对后续的学习算法也经常产生不利的影响。目前人们广泛采用特征选择方法来对这些数据进行预处理。特征选择基于选择一个特征子集来逼近所有特征的方式来进行降维。特征选择可以是有监督的、无监督的或半监督的。在实际应用中,通常难以获得有标签的数据,所以在这种情况下,无监督的特征选择显得更加重要。

子空间学习是特征选择常用的方法。子空间学习是学习高维空间低维表示的重要方法。在学习到子空间后,通常计算子空间和原高维空间的距离,根据距离的大小来衡量所学习到的子空间的优劣。一般情况下,距离越短,学习到的子空间性能越好,越能代表原高维空间。目前已有多种算法可以有效的用于子空间学习。例如非负矩阵分解(NonnegativeMatrix Factorization,NMF)、主要成分分析(Principal Component Analysis,PCA)、奇异值分解(Singular Value Decomposition,SVD)和矩阵分解技术。不同的算法对子空间距离的定义也不尽相同。子空间学习融合了所有特征,可以最大程度的保留原来特征空间的全局结构特征,而且采用上述提到的算法均能设计出高效的迭代算法来进行特征选择。然而子空间学习缺乏可解释性,并且忽视了数据的一些局部结构特征。

图结构学习是改善子空间学习的一个重要方法。在子空间学习中嵌入一些结构学习正则化矩阵可以更好的捕捉到原特征空间结构的一些细节特征。目前已有的结构学习正则化矩阵可分为两大类,分别是针对局部结构进行学习的正则化矩阵和针对全局结构进行学习的正则化矩阵。邻域保持正则化算子是当前较为常用的一种局部结构保持算子。这个算子假设所有样本都可以由它的若干个k近邻的线性组合表示。尽管这种算法极大的改善了子空间学习的性能,但这种结构学习算子十分依赖于初始输入的关联矩阵,因此其性能较不稳定。

目前,嵌入结构学习算子的子空间学习均已在特征选择方面获得了较好的性能。然而这些方法通常仅采用一个固定的关联矩阵对结构进行学习。这样处理并不准确,其结果也并不稳定,同时也不利于构建高效的迭代算法。

发明内容

本发明的目的在于针对上述现有技术中无监督的特征选择方法处理不准确以及性能不稳定的问题,提供一种基于自适应图结构约束子空间学习的特征选择方法及设备,保证了在学习原高维特征空间的子空间的同时,使学习到的子空间保持原高维特征空间的结构特征。

为了实现上述目的,本发明有如下的技术方案:

一种基于自适应图结构约束子空间学习的特征选择方法,包括以下步骤:

-通过基于矩阵分解的子空间学习,在原高维特征空间中挑选若干个特征形成子空间;

-通过自适应图结构学习,约束所得到子空间具有和原高维特征空间有相同的结构特征。

作为本发明基于自适应图结构约束子空间学习的特征选择方法的一种优选方案:

对于高维特征矩阵X∈R

按照下式在原高维特征空间中挑选若干个特征形成子空间:

式中,H为非负的系数矩阵,W为特征选择过程中的指示矩阵,γ为

作为本发明基于自适应图结构约束子空间学习的特征选择方法的一种优选方案:

通过局部数据结构保持算子提高子空间与原高维特征空间的结构相似度的方式如下:

在高维特征矩阵中采用欧式距离测量每两个样本之间的距离,并根据距离来设定两个样本彼此邻接的概率;

式中,S为相似矩阵,增加

作为本发明基于自适应图结构约束子空间学习的特征选择方法的一种优选方案:

将所述求解表达式转化为矩阵乘积的形式如下:

式中,L为拉普拉斯矩阵,L=D-S,D为对角线矩阵,其对角线元素为S的对角线元素。

作为本发明基于自适应图结构约束子空间学习的特征选择方法的一种优选方案:

对求解表达式施加秩约束,高维特征矩阵中如果含有c个类别的样本,则相似矩阵有c个连通分量,拉普拉斯矩阵L的特征值重数也为c,得到拉普拉斯矩阵的秩即为高维特征矩阵中样本的类别数,即高维特征矩阵中样本数目为c时,拉普拉斯矩阵的秩等于n-c。

作为本发明基于自适应图结构约束子空间学习的特征选择方法的一种优选方案:

所述局部数据结构保持算子的表达式如下:

s.t.0≤S

将矩阵分解的子空间学习与局部数据结构保持算子联合建立总体的目标函数如下:

s.t.W≥0,H≥0,0≤S

上式中的α是平衡两项的参数;

根据Ky定理,得出:

s.t.W≥0,H≥0,0≤S

作为本发明基于自适应图结构约束子空间学习的特征选择方法的一种优选方案:

采用迭代优化的方式对提出的目标函数进行优化,对于提出的损失函数,对每个变量求出局部最优解,然后进行迭代优化,完成无监督特征选择。

本发明还提出一种基于自适应图结构约束子空间学习的特征选择系统,包括:

子空间学习模块,用于通过基于矩阵分解的子空间学习,在原高维特征空间中挑选若干个特征形成子空间;

自适应图结构学习模块,用于通过自适应图结构学习,约束所得到子空间具有和原高维特征空间有相同的结构特征。

本发明还提出一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时实现所述基于自适应图结构约束子空间学习的特征选择方法的步骤。

本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于自适应图结构约束子空间学习的特征选择方法的步骤。

相较于现有技术,本发明至少具有如下有益效果:

本发明首先在原高维特征空间中通过矩阵分解学习到一个低维子空间,同时学习这个低维子空间的结构的相似图,从而保证在这个子空间上,各个类别的数据能够清楚地划分。本发明通过将自适应图结构学习应用于特征选择中,确保了特征选择得到的特征子空间与原特征空间有相似的数据结构。同时,自适应图结构中的相似矩阵具有初始闭式解,可以根据特征矩阵求得,不依赖于外界输入,在迭代过程中还可以根据局部最优解迭代更新,提高了算法的稳定性。本发明联合优化基于矩阵分解的子空间学习过程和自适应图结构学习过程,避免了单独处理两个学习过程中会出现的次优化问题,提升了处理方法的性能。

具体实施方式

下面结合实施例对本发明做进一步的详细说明。

本发明基于自适应图结构约束子空间学习的特征选择方法,包括以下步骤:

给定一个高维特征矩阵X∈R

从子空间学习的角度,采用矩阵分解技术可以将特征选择问题公式化为如下优化问题:

其中H为系数矩阵,考虑到实际应用中所用到的特征矩阵多为非负值,所以约束H矩阵为非负矩阵。W为指示矩阵,用来指示选择的特征。γ为

使用局部数据结构保持算子来提高子空间与原高维数据空间的结构相似度。在原高维特征矩阵中,有若干个样本,采用欧式距离测量每两个样本之间的距离,并根据距离来设定两个样本彼此邻接的概率。其中,

上述问题可公式化为如下优化问题:

其中,S为相似矩阵,增加

其中,L=D-S被称为拉普拉斯矩阵,D为对角线矩阵,其对角线元素为S的对角线元素。

原高维特征矩阵中如果含有c个类别的样本,那么相似矩阵应该有c个连通分量,因此可以推断出拉普拉斯矩阵L的特征值重数应也为c。所以可以得到拉普拉斯矩阵的秩即为原高维特征矩阵中样本的类别数。即原高维特征矩阵中样本数目为c时,拉普拉斯矩阵的秩应等于n-c。因此,本发明对原始的目标函数施加秩约束。

所以本发明的局部结构保持算子可以写为:

s.t.0≤S

本发明将矩阵分解子空间学习问题和局部结构保持算子联合建立了总体目标函数:

s.t.W≥0,H≥0,0≤S

上式中α是平衡两项的参数,为了满足秩约束rank(L)=n-c,拉普拉斯矩阵应该有c个零特征值并且最小的c个特征值之和应该等于0.另外,根据Ky定理,可以得出:

s.t.W≥0,H≥0,0≤S

采用迭代优化的方式对提出的目标函数进行优化,对于提出的损失函数,对每个变量求出局部最优解,进而进行迭代优化,同时设计迭代算法可高效完成无监督特征选择问题。

实施例

步骤一:加载数据集,得到原高维特征矩阵X,并得到所有样本的类别向量Y。设置参数α,γ通常设为10

步骤二:随机初始化指示矩阵W和系数矩阵H。

步骤三:利用X,通过相似矩阵S的闭式解初始化S。

步骤三:根据L=D-S初始化拉普拉斯矩阵L。

步骤四:采用CAN算法对S,L进行迭代更新,直到S,L收敛。

步骤五:根据拉普拉斯矩阵L,采用拉格朗日算子对W,H进行优化。

步骤六:重复步骤三至步骤五,直到S,L,W,H收敛。

步骤七:将W表示为(w

步骤八:根据索引向量A对原特征向量进行选择,最终构成一个低维特征矩阵。

步骤九:采用k均值算法对得到的特征矩阵进行聚类,并根据聚类结果计算聚类正确率(ACC)和归一化互信息(NMI)。

表1和表2是本发明基于自适应图结构约束的子空间特征选择方法在公开数据集上的实验结果。表1是聚类准确率(ACC)对比实验结果,表2是聚类互信息(NMI)对比实验结果。

表1

表2

在表1和表2中,最后一行是本发明对数据集进行特征选择后进行聚类后的结果,第一行是算法LS的结果,第二行是UDFS的结果,第三行是MFFS的结果,第四行是GLoSS的结果。在这两个表中,对于每个数据集来说,最好的结果用粗体显示,次好的结果用带有下划线的形式表示。在4个公开的数据集上对算法进行测试,并与其他几种优秀的特征选择算法进行比较,结果能够验证基于自适应图结构约束子空间学习的特征选择方法的有效性。

本发明还提出一种基于自适应图结构约束子空间学习的特征选择系统,包括:

子空间学习模块,用于通过基于矩阵分解的子空间学习,在原高维特征空间中挑选若干个特征形成子空间;

自适应图结构学习模块,用于通过自适应图结构学习,约束所得到子空间具有和原高维特征空间有相同的结构特征。

本发明还提出一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时实现所述基于自适应图结构约束子空间学习的特征选择方法的步骤。

本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于自适应图结构约束子空间学习的特征选择方法的步骤。

所述的计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明基于自适应图结构约束子空间学习的特征选择方法。

所述终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备,也可以是处理器、存储器。处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。存储器可用于存储计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现基于自适应图结构约束子空间学习的特征选择系统的各种功能。

以上所述的仅仅是本发明的较佳实施例,并不用以对本发明的技术方案进行任何限制,本领域技术人员应当理解的是,在不脱离本发明精神和原则的前提下,该技术方案还可以进行若干简单的修改和替换,这些修改和替换也均属于权利要求书所涵盖的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号