技术领域
本发明属于计算机领域,涉及一种考虑全局-局部结构的含噪高维数据降维方法。
背景技术
随着信息技术的发展,高维数据在各领域大量涌现,高维数据挖掘已成为数据挖掘的重点。受到“维数灾难”的影响,高维数据挖掘变得异常地困难。数据降维是解决该问题的有效思路,常见的数据降维方法包括主成分分析(PCA),奇异值分解(SVD),矢量量化(VQ),非负矩阵分解(NMF)等。NMF在降维过程中加入了非负约束,使得高维数据在低维空间中变为各基向量的纯加性组合。这一特性符合人脑感知中“整体由局部组成”的生理与心理要素,因此NMF在人脸识别、文本分析等领域中具有优势。
近年来,一些学者也在NMF中介入一些额外约束以提升算法的可靠性。Kong等人提出鲁棒NMF模型(RNMF),他们利用范数构造NMF的目标函数,使该模型对离群点与噪声更具有鲁棒性。Ding等人提出一种正交非负矩阵三分解模型(ONMTF)。他们通过在基矩阵与系数矩阵引入正交约束,使得不同类型的数据在全局上更具有鉴别性。Cai等人提出一种图约束的NMF模型(GNMF),通过利用最近邻图编码数据的几何结构,使得低维数据保留了高维数据的局部结构。
高维数据的结构可以分为全局结构与局部结构。全局结构主要反映数据外部整体的特征而局部结构主要描述数据内在的组织方式,两者都包含重要信息。而现在的非负矩阵分解方法往往只针对一种数据结构进行考虑,因此降维得到的高维数据特征难以完整、准确的描述原始数据,造成信息的丢失和误读。
发明内容
有鉴于此,本发明的目的在于提供一种考虑全局-局部结构的含噪高维数据降维方法。
为达到上述目的,本发明提供如下技术方案:
一种考虑全局-局部结构的含噪高维数据降维方法,包含以下步骤:
步骤一:数据预处理;获取N个具有d维的故障样本,并构建原始样本数据矩阵
步骤二:构建鲁棒非负矩阵分解模型Ω(U,V);
步骤三:构建全局约束正则项Ω
步骤四:构建局部约束正则项Ω
步骤五:综合步骤二、三、四的模型与正则项,形成总模型Ω(U,V)+αΩ
步骤六:应用KKT条件,得到模型的迭代求解公式;
步骤七:输出高维数据在低维空间的特征。
可选的,所述步骤2具体为:
S2.1构建l
其中||·||
可选的,所述步骤3具体为:
S3.1构建具有块对角结构的指示矩阵,具体形式如下:
其中
S3.2在此基础上建立全局约束正则项Ω
其中⊙代表矩阵哈达马积,||·||
可选的,所述步骤5具体为:
S5.1总模型构建;综合考虑鲁棒非负矩阵分解模型,全局约束正则项,局部约束正则项,得到本发明所提出的总模型:
其中α,β分别为调节全局约束,局部约束的实数参数。
可选的,所述步骤6具体为:
S6.1应用KKT条件,得到模型的迭代求解公式,
其中,t为迭代次数;ε为防止分母为0的小常数;
S6.2依次利用公式(1)~(3)对矩阵U,V,Φ迭代更新,直到迭代次数满足上限或目标函数值的相对改变量小于阈值。
可选的,所述步骤7具体为:
S7.1输出最后一次迭代得到的系数矩阵V;其每列V
本发明的有益效果在于:对传统非负矩阵分解模型引入全局约束与局部约束,即在高维数据降维时同时考虑了高维数据的全局结构信息与局部结构信息,从而改善数据降维效果。此外,本发明还利用l
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明流程图;
图2为不同算法在合成数据集得到的系数矩阵;(a)为样本X;(b)为NMF的V;(c)为RNMF的V;(d)为ONMTF的V;(e)为GNMF的V;(f)为本发明的V;
图3为不同算法在含噪合成数据集得到的系数矩阵;(a)为样本X;(b)为NMF的V;(c)为RNMF的V;(d)为ONMTF的V;(e)为GNMF的V;(f)为本发明的V。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1,为一种考虑全局-局部结构的含噪高维数据降维方法。
步骤一:数据预处理。获取N个具有d维的故障样本,并构建原始样本数据矩阵
其中
步骤二:鲁棒非负矩阵分解模型构建。构建l
其中||·||
步骤三:全局约束正则项构建。
S3.1构建具有块对角结构的指示矩阵,具体形式如下:
其中
S3.2在此基础上建立全局约束正则项Ω
其中⊙代表矩阵哈达马积,||·||
步骤四:局部约束正则项构建。
S4.1计算对样本集X的K近邻矩阵W:
其中δ(x
S4.2在此基础上构建局部约束正则项Ω
Ω
其中Tr(·)表示矩阵的迹;L为拉普拉斯矩阵L=D-W;D为对角矩阵,其对角线元素d
步骤五:总模型构建。综合考虑鲁棒非负矩阵分解模型,全局约束正则项,局部约束正则项,得到本发明所提出的总模型:
其中α,β分别为调节全局约束,局部约束的实数参数。
步骤六:模型求解。
S6.1应用KKT(Karush-Kunhn-Tucker)条件,得到模型的迭代求解公式,
其中,t为迭代次数。ε为防止分母为0的小常数。
S6.2依次利用公式(1-3)对矩阵U,V,Φ迭代更新,直到迭代次数满足上限或目标函数值的相对改变量小于阈值。
步骤七:低维特征获取。输出最后一次迭代得到的系数矩阵V。其每列V
为说明本发明的有效性,以一合成数据为例进行试验。该合成数据由500个维度为1000,元素为0或1的样本组成,其总类别数为5。此次实验,本发明的参数设定如下:m=5,p=0.5,α,β=1。图2和图3可视化了样本矩阵与NMF、RNMF、ONMTF、GNMF以及本发明所学习得到的系数矩阵V。
图2为不同算法在合成数据集得到的系数矩阵;(a)为样本X;(b)为NMF的V;(c)为RNMF的V;(d)为ONMTF的V;(e)为GNMF的V;(f)为本发明的V;
图3为不同算法在含噪合成数据集得到的系数矩阵;(a)为样本X;(b)为NMF的V;(c)为RNMF的V;(d)为ONMTF的V;(e)为GNMF的V;(f)为本发明的V。
从中可见,相比于其他算法,本发明学习得到的低维特征保留了高维数据的块状结构,具有良好的鉴别性,证明了本发明有效性。
为进一步说明本发明对噪声与离群点的鲁棒性,进一步在含噪合成数据集上进行验证。在上述的合成数据集的基础上,随机为该数据加上幅值为1的噪声。相比于其他算法较为杂乱的特征,本发明所提出的方法能够很好的克服噪声所带来的影响,学习到的特征也能够保持原始高维数据的全局与局部结构。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
机译: 一种用于使用高维图像的低维图像的计算机实现的方法,一种用于训练人工神经网络的方法,用于在低维图像中找到地标,计算机程序和用于使用高维图像注册低维图像的地标
机译: 高维纹理绘制设备,高维纹理压缩设备,高维纹理绘制系统,高维纹理绘制方法和高维纹理绘制程序
机译: 错觉分析装置,一种用于生成考虑了虚假的图像的装置,其中,考虑到基于原始图像的错觉,虚假分析方法,将被认为是虚假的考虑到的图像都考虑到了这种情况,直到将其视为虚假的图像图像和程序