法律状态公告日
法律状态信息
法律状态
2020-04-14
授权
授权
2018-11-27
实质审查的生效 IPC(主分类):G06K9/62 申请日:20180510
实质审查的生效
2018-11-02
公开
公开
技术领域
本发明属于数据处理,尤其是人脸数据库的数据降维的技术领域,具 体地涉及一种基于深度参数学习的最大相关主成分分析方法。
背景技术
在大数据时代,面临着越来越多的数据分析和数据处理任务。面对这 些任务时,主要存在两个问题。一是,在现实世界中,通常获取到的是更 高维形式的数据。这些数据一般是把隐藏在低维子空间或者流形的本征低 维结构嵌入在高维数据空间。高维度不仅需要更多的存储空间和计算成本, 而且由于维度“诅咒”也增加了数据分析的难度。二是,现实世界的数据 很可能被各种各样的噪声所破坏,这阻碍了分析数据中真实的信息和存在的相关性。
为了准确、高效地处理这些真实世界的数据,人们总是努力从原始的 高维数据中降低数据的维数和提取出重要的特征。其中主成分分析(PCA)是 一种标准工具,可以从带噪声的或高维数据中提取相关特征信息。通过最 小的努力,PCA提供了一种基本的方法来揭示隐藏的或简化的结构,并将高 维数据降到更低的维度。在一些科学研究领域中,PCA有着广泛的应用,如 图像分析,模式识别和机器学习。然而,PCA只考虑变量(特征)之间的线性相关性,不适用一些具有非线性相关结构的数据,比如瑞士卷数据。由 于大多数真实世界数据是非线性,这将限制PCA的应用。
为了解决PCA的这一缺点,许多科研人员致力于研究非线性降维方法。 有人提出了核PCA(KPCA)方法,它是在特征空间中改写传统的PCA,通过 使用核技巧,在一个再生核Hilbert空间中执行传统的线性算子PCA。事实 上,一个大的数据集会导致一个大的核矩阵,而存储核矩阵可能变得困难。 此外,如何选择合适的核函数完全取决于经验和列举。为了解决这个问题, 最大方差展开(MVU)尝试学习一个核矩阵。然而,MVU增加了优化问题的约 束,这可能不利于展开数据所在的流形空间。等距特征映射算法(Isomap) 也是一种通过在低维流形上或者附近点保持数据两点间的测地线距离来展 开数据的方法。Isomap基于每个数据点邻域的粗略计算,对估计数据流形 的本征几何提供了一种简单的方法。然而,Isomap可能在邻域图中建立错 误的连接,如短路。为了克服Isomap的缺点,提出了几种改进的Isomap 方法。它们确实取得了良好的效果,但也缩小了Isomap的应用范围。
与前面提到的关于全矩阵特征分解的非线性降维方法相比,局部线性 嵌入(LLE)也侧重于保持数据的局部结构。与Isomap相比,它具有几个优 点,包括在执行稀疏矩阵算法时实现更快的优化,有很多问题可以获得更 好的结果。然而,当大比例的数据在低维空间中保持集中,或者遇到包含 洞的流形时,可能会表现较差的性能。另一类降维方法是优化非凸目标函 数,如多层自编码,局部线性调和(LLC),Sammon映射。多层自编码是这 些方法中应用最广泛的一种。多层自编码可以看作是非线性PCA,它使用自 适应多层“编码器”网络将高维数据转换为低维代码,以及类似的“解码 器”网络,从低维代码中恢复数据。自编码的目标是从数据集中学习的一 种表示(编码),通常是为了达到降维的目的。自编码已经成功地应用于数 据的生成模型。然而,他们的训练可能很复杂。
另一种类型的PCA是最大相关主成分分析(MCPCA),它首先通过线性或 者非线性的转移算子,把数据映射到同纬度空间。然后最大化映射后得数 据的协方差的q-Ky Fan范数(协方差矩阵的前q个最大的特征值之和)。 然而,寻找转移算子是一项艰巨的任务。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于深度 参数学习的最大相关主成分分析方法,其针对具有非线性结构的高维数据 能够有效地降维。
本发明的技术解决方案是:这种基于深度参数学习的最大相关主成分 分析方法,利用深度参数化的方法逼近未知但存在的非线性函数,把具有 非线性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成 分分析对数据降维。
本发明通过学习来对转移算子进行参数化,该方法对各个特征采用相 互独立的映射链,与神经网络的正向传播结构相似,但变量间的相互作用 是独立的。因此,每个映射链只有一个输入变量,并逼近非线性转移算子。 该方法利用深度参数化的方法逼近未知但存在的非线性函数,把具有非线 性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成分分 析对数据降维,因此针对具有非线性结构的高维数据能够有效地降维。
附图说明
图1示出了几种人脸数据库的采样。
图2是图1的数据使用降维方法,基于1-NN分类器获得的相对于降维 维度的准确度。
具体实施方式
这种基于深度参数学习的最大相关主成分分析方法,利用深度参数化 的方法逼近未知但存在的非线性函数,把具有非线性结构的高维数据映射 为具有线性结构的同维度数据,然后利用主成分分析对数据降维。
本发明通过学习来对转移算子进行参数化,该方法对各个特征采用相 互独立的映射链,与神经网络的正向传播结构相似,但变量间的相互作用 是独立的。因此,每个映射链只有一个输入变量,并逼近非线性转移算子。 该方法利用深度参数化的方法逼近未知但存在的非线性函数,把具有非线 性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成分分 析对数据降维,因此针对具有非线性结构的高维数据能够有效地降维。
优选地,该方法包括以下步骤:
(1)提出目标函数;
(2)对目标函数优化。
优选地,所述步骤(1)中:
对于给定的原始数据集,表示为
定义公式(1)的数据流
其中 优选地,目标函数为公式(2) 优选地,在所述步骤(2)中: 考虑矩阵K的奇异值分解,K=Udiag(λ)VT,其中λ=(λ1,λ2,…,λm)T表>TKV以及λi=U(:,i)TKV(:,i);> 关于变量w1,w2,b1和b2的导数,写为公式(11) 令θ=[w1,w2,b1,b2],J关于θ的导数为 优选地,在所述步骤(2)中:获得目标函数关于变量的导数或者梯度 后,采用最速下降法或者共轭梯度法逼近目标函数的最优点。 现在给出一个本发明的详细实施例。 该技术方案主要分为两个步骤,一是提出目标函数,二是对目标函数 优化。 (1)提出目标函数 对于给定的原始数据集,表示为 其中 使用φ表示对原始数据的非线性变换,是对深度参数化方法的简化记 号。即X(2)=φ(X(0))。MCPCADP通过最大化映射后的数据X(2)的协方差的q-Fy> (2)目标函数优化 为了优化该目标函数,需要对目标函数进行反向求导。由于目标函数时 一个多层的复合函数,根据求导链式法则,需要对目标函数逐层求导。为 了表述严格,使用微分符号代替导数符号。 考虑矩阵K的奇异值分解,K=Udiag(λ)VT,其中λ=(λ1,λ2,…,λm)T表>TKV以及>i=U(:,i)TKV(:,i)。特别的,当K是一个正定对称矩阵时,有U=V。协方> 为了给出J关于K的微分,给出下面定理 定理1考虑矩阵对称正定矩阵K的SVD分解,K=Udiag(λ)UT。则q-Ky>其中 证明根据(3)式,可得 注意到 证毕。 因此J关于K的微分是 其中K:表示把矩阵K的每一列连成一个长向量, 因为有 其中 接下来,根据深度参数化方法(1)式,X(2)=g(H(2)),其中g是一个变量> dX(2):=g′(H(2)):⊙dH(2):,(7) 其中⊙表示Hadamard积。结合(5),(6)和(7)式,可得 其中 根据H(2)=diag(w2)X(1)+b2*1T,可以得到 其中 深度参数方法第一层的微分与第二层的微分相似,我们直接给出 其中dX(0)=0。因此J关于变量w1,w2,b1和b2的微分写成 其中行向量 写成导数形式,可得J关于变量w1,w2,b1和b2的导数,分别写为, 令θ=[w1,w2,b1,b2],则J关于θ的导数为 一旦获得了目标函数关于变量的导数或者梯度,可以采用现有的最速 下降法或者共轭梯度法逼近目标函数的最优点。 本发明选用合成数据库Swiss roll数据库和四个自然数据库,即, Yale,ORL,CMU-PIE,Dyntex++视频数据库(如图2(a)、(b)、(c)、(d) 所示)。选用的对比方法包括PCA和其他广泛采用的非线性降维方法,如 KPCA,Siomap,LLE,多层自动编码器(Autoencodes),MCPCA。这些实验 是为了证明提出的算法MCPCADP对具有非线性结构数据降维的有效性。 1数据准备 在实验中使用了以下几个数据库: ●Swiss roll database (http://people.cs.uchicago.edu/~ dinoj/manifold/swissroll.html). ●Yale face database (http://vision.ucsd.edu/content/yale-face-database). ●ORL face database (http://www.cl.cam.ac.uk/research/dtg/att-archive/facedatabase. html. ●CMU Multi-PIE face database (https://www.flintbox.com/public/project/4742/). ●Dynamic++texture database (http://vision.ai.uiuc.edu/~bghanem2/DynTex++.htm). Swiss roll数据是一个由光滑的非线性函数把2维数据映射成3维 数据,创建的数据库。原始数据是一个高斯混合模型(7.5,7.5), (7.5,12.5),(12.5,7.5)和(12.5,12.5)中随机采样400个点。每个高斯分 布的协方差是2x2的单位矩阵。这些数据点可以被记录为一个1600x2矩阵。 它的标签是一个1600x1向量(标签为1,2,3或4),标签是取决于是哪个混 合模型生成的这个点。然后把这个2维数据通过下面函数映射成3维数据 瑞士卷 f:(x,y)→(xcos x,y,x sinx),(12) 结果是形成的数据库是一个1600×3矩阵。将每个类数据集的200个点随 机选择为训练数据集,其余的点用于测试。 第二个数据库是Yale人脸数据库,包括15个人,每人11张图片,共 有165 张图片。每个人都提供的图片具有不同的面部表情或不同的外部条件,比 如,中心灯,带眼镜,或不戴眼镜,正常,右光,悲伤,困倦,惊讶和眨 眼等等。图1(a)显示了来自该数据库的一些样本图像。在实验中,每个人 的前8张图像作为训练样本,其余的图像用于测试。每幅图像的像素缩放 到32x32的分辨率,然后拉成为1024维向量。下面的数据库被调整为相同 的大小和向量化。 第三个数据库是ORL数据库,包括40个有400个图像的人,每个人提 供11种不同的图像,不同的灯光,面部表情(开/闭的眼睛,微笑/不微笑) 和面部细节(眼镜/不戴眼镜)。每个人的前8张图像用于训练,其余的图像 用于测试。图1(b)显示了一些样本图像。 第四个数据库,CMU-PIE是一个广泛使用的面部数据库,有68人,超 过40000张图片。我们总共使用11554张人脸图像。在实验中,随机抽取 每个人的120张图像作为训练样本,剩下的图像用于测试。在图1(c)中显 示一些样本图像。 最后一个数据库是DynTex++数据库,一个动态纹理视频集。从656个 视频序列中选择345个视频序列,剪辑出3600个视频。视频的场景包括飞 鸟、车辆、河水、云朵等等。这些视频片段共分为36个类,每个类包括大 小为50x 50x50d的100个视频片段。如图1(d)中显示了DynTex++的一些 样本。在本实验中,随机选择50个视频片段作为训样本,其他50个视频 片段作为测试样本。对于每个视片段,使用LBP-Top特性,然后通过SVD 提取线性不变结构。调整视频片段为177×1矩阵。根据在高斯核函数,采 用Grassmann测地线距离,获得核矩阵。 2实验结果分析 基于1-最近邻分类器(1-NN),本发明的MCPCADP与对比算法PCA, KPCA,Isomap,LLE,Autoencoders,MCPCA一起比较在数据集上的分类准确 率(见表1)。 表1 Swiss roll数据库是一个3维具有“流形”非线性结构的合成数据库, 隐含着2维的本征结构。从Swiss roll数据库到起本征维度数据的降维是 非线性。 到内在数据库。因此,Swiss roll数据库是一个测试非线性降维算法的理 想数据库。 如表1所示,给出了各个算法基于1-NN分类器的分类准确率。因为 MCPCA没有考虑数据的局部邻域,所以在Swiss roll数据库表现较差。我 们提出的MCPCADP和其他线性或者非线性的降维方法比较,具有明显的优 势。这说明MCPCADP通过深度参数学习,具有较强的提取特征能力和泛化 能力。 接下来,将使用Yale、ORL、CMU-PIE face数据库和DynTex++纹理数 据库等四个自然数据库进行基于1-NN分类器的实验。它们也都是公开的数 据集,具有不同的挑战性,广泛应用于模式识别领域。在图2(a)、(b)和 (d)中,本发明的MCPCADP具有最高的分类准确率。在图2(c)中,对数据 降维到大于3时,自编码具有最好的性能,MCPCADP具有次优的性能。 从图2中可以看出,MCPCA表现并不出色,这可能是与因为数据样本没 有对齐有关。从这一点可以看出,通过深度参数化学习的MCPCADP比MCPCA 更具有鲁棒性。此外,当MCPCADP模型训练完成,任何测试数据都可以通 过训练的参数直接降维,然而,MCPCA需要重新寻找非线性变换。从图2中 可以看出,MCPCADP非常适合从原始的高维数据中提取非线性特征,以及具 有较好的适用性。图2(d)没有对比KPCA方法,是因为DynTex++数据库 已经被核方法处理过。 以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的 限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等 同变化与修饰,均仍属本发明技术方案的保护范围。
机译: 一种预测牛奶产量,TMR以实现目标乳产量或TMR以实现基于深度学习预测模型的最大牛奶产率
机译: 基于声音平均芹菜轮廓的浴场轮廓深度确定方法,一种芹菜轮廓的确定方法以及相关的声纳系统
机译: 使用非最大抑制的自适应阈值方法检测基于深度学习的人为对象的系统和方法