首页> 中国专利> 一种基于全局模积和局部判别差异的张量降维

一种基于全局模积和局部判别差异的张量降维

摘要

本发明提出一种基于张量空间全局模式积下结合局部判别差异的LDA数据降维算法,实现数据降维算法的构建需要了解数据间的关系,由于此原因,数据降维算法的构建都是基于数据集并非针对单个数据。所以与常见的大数应用不同,本发明采用一个张量表示一个多维数据集。在此数据集表示中,前N‑1位代表张量数据的各个维度,最后一维M表示数据集包含数据的个数。张量具有与一个矩阵的模式积可以改变张量某个维度的大小,我们选择一个低维张量和一系列低维矩阵,使得这个低维张量与这些矩阵的模式积尽量逼近给定的高维张量。相比全局或模式LDA解法,迭代解法得到的结果虽然不是问题的最优数学解,但却是保持张量数据各个维度的差异和联系的最优近似解。

著录项

  • 公开/公告号CN113269328A

    专利类型发明专利

  • 公开/公告日2021-08-17

    原文格式PDF

  • 申请/专利权人 中山大学;

    申请/专利号CN202110470920.X

  • 发明设计人 马争鸣;袁雪敬;

    申请日2021-04-29

  • 分类号G06N20/00(20190101);

  • 代理机构

  • 代理人

  • 地址 广东省广州市海珠区新港西路135号

  • 入库时间 2023-06-19 12:14:58

说明书

技术领域

本发明属于机器学习领域,涉及把张量的全局模式积与局部判别差异有机结合的降维算法,具体是基于张量空间降维算法,最大限度的保持了原始数据的的几何结构与类别信息。

背景技术

随着人们对事物认识的深刻和多面,刻画事物特征的多维数据日见普遍,研发专门针对多维数据的机器学习算法的需求也日见迫切。本文针对多维数据的降维,提出基于全局模式积和局部判别差异的多维数据集的降维算法。

“维数灾难”的问题一直困扰着机器学习的各种应用,因此,数据降维算法的研究一直是机器学习的一个重要的研究课题。一般来说,数据降维算法可以分成二类:线性的数据降维算法,如PCA、MDS、 LDA、DML等等;非线性的数据降维算法,如KernelPCA、KernelLDA、LTSA、LPP、LE、LLE[17]、 HLLE等等。然而,这些算法都是针对一维或二维数据,不是针对多维数据。张量代数是处理多维数据的有力数学工具,本文采用张量表示多维数据集,并利用张量的数学性质构造张量的降维算法。

在机器学习中,数据一般有二种属性:内在属性和外在属性。数据在数据空间的分布是数据的内在属性,而(在有监督的学习中)数据的类别信息(标签)是外在属性。数据的外在属性随着应用场合的不同而不同。例如,在人脸的身份识别中,同一个人的不同姿态、不同表情、不同光线的照片都被赋予同样的标签,但在人脸的表情识别中,同一种表情的不同人、不同姿态、不同光线的照片都被赋予同样的标签。同一张人脸照片,在身份识别和表情识别中被赋予了不同的标签。怎样把数据的内在属性和外在属性有机地结合,是机器学习算法追求的目标。

首先用张量表示一个多维数据集,然后根据张量代数中张量与矩阵的模式积可以改变张量某个维的维度的性质,利用高维张量与一系列矩阵的模式积实现张量的降维,其中的模式矩阵利用降维张量局部判别差异的最大化来确定。所谓张量的局部判别差异就是先把张量分解成一个一个局部,然后根据张量的所属类别(标签)计算张量的局部判别差异。张量的局部分解是根据张量的空间分布进行,而张量的判别差异则是根据张量在具体应用场合被赋予的类别进行。张量的局部判别差异较好的实现了张量的内在属性与外在属性的结合。

发明内容

本发明提出一种基于张量空间全局模式积下结合局部判别差异的LDA数据降维算法,实现数据降维算法的构建需要了解数据间的关系,由于此原因,数据降维算法的构建都是基于数据集并非针对单个数据。所以与常见的大数应用不同,本发明采用一个张量表示一个多维数据集。在此数据集表示中,前N-1位代表张量数据的各个维度,最后一维M表示数据集包含数据的个数。

张量具有特殊性质是,张量与一个矩阵的模式积可以改变张量某个维度的大小,我们选择一个低维张量和一系列低维矩阵,使得这个低维张量与这些矩阵的模式积尽量逼近给定的高维张量。这个低维张量就是高维张量的降维结果。进一步,我们提出基于模式积的张量数据降维问题的迭代解法,相比全局或模式 LDA解法,迭代解法得到的结果虽然不是问题的最优数学解,但却是保持张量数据各个维度的差异和联系的最优近似解。针对这一特性可以实现张量数据集的降维,为了保证降维数据的可靠性,增加局部判别差异LDD来保证数据降维后仍具有较好的鲁棒性。

该算法是通过三个层次的演进构建的。(1)首先,在一定的张量空间下的张量数据可以与特定大小矩阵矩阵的模式积可以改变张量某个维的维度的性质,将其应用在多个特定矩阵模式积便可实现整个原始数据域张量的降维,即利用高维张量与一系列矩阵的模式积实现张量的降维,实现全局模式积步骤。降维后的数据属于较低维度的张量数据空间。(2)其次,从张量空间来说,它每一点的对应空间即是线性空间,也是距离空间,支持线性运算,也支持距离度量。为此,我们在张量空间的基础上进一步结合LDA 判别算法,得到LDD判别标准。(3)将该判别标准应用的数据降维中,保持类间距离尽可能的拉大,类内距离尽可能的小,从而实现实现张量空间的数据降维。

本发明的特点及其意义:

(1)随着人们对事物认识的多面化,刻画事物特征的数据的维数日益增多(多维数据)。但是,机器学习的许多算法,大都针对向量或图像研发。因此,研究针对多维数据的机器学习算法的需求日益迫切。本文研究多维数据的降维问题。

(2)张量代数是研究多维数据处理的有力数学工具。本文采用张量表示多维数据集。在这种表示方法中,张量前面各维表示多维数据的各维,最后维表示数据集包含的数据的个数。由于张量与矩阵的模式积可以改变张量相应维的维度,因此,本文提出利用张量模式积的方式进行张量降维。在本文提出的算法中,高维张量与一系列矩阵的模式积就是降维张量。

(3)在机器学习中,数据有二种属性:内在属性和外在属性。数据在数据空间的分布是数据的内在属性,而(在有监督的学习中)数据的标签是外在属性,随着应用场合的不同而不同。本文提出的算法,先按照数据的空间分布(内在属性)把数据集分解为一个一个局部,然后再按照数据的标签(外在属性) 分别计算每个局部的判别差异,较好地实现了数据内在属性与外在属性的结合。

附图说明

图1:基于全局模积和局部判别差异的张量降维。

具体实施方式

基于全局模积和局部判别差异的张量降维具体内容如下:

给出一个张量

另一方面,如果我们用张量

这时

张量的降维,以

如果用

这里

对于每一个降维张量数据

局部同类数据

这里s

显然,Φ

上式只是考虑一个降维张量数据

这里

同样地,Φ也是对称半正定矩阵。

局部异类数据

这里

显然,Ψ

上式只是考虑一个降维张量数据

这里

同样地,Ψ也是对称半正定矩阵。

本文定义降维张量数据集

基于全局模积和局部判别差异的张量降维算法求解:

因为

这里

因此,上述问题是一个典型的广义瑞利商问题,根据广义瑞利商问题的解,矩阵

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号