首页> 中文学位 >数据降维的广义相关分析研究
【6h】

数据降维的广义相关分析研究

代理获取

摘要

随着数据采集和存储技术的飞速发展,高维数据,如航天遥感数据、生物数据、网络数据以及金融市场交易数据等大量涌现,如何将高维数据表示在低维空间中,并由此发现其内在的本质结构是机器学习及模式识别领域的重要研究方向之一,现已引起人们广泛的关注,相应研究方兴未艾,其应用范围涉及图像分析和处理、多媒体处理、医学数据分析、海洋气象预测、计算机视觉信息检索和跨语种文本分类等众多领域。本文从基于相关性的经典降维方法一典型相关分析(Canonical Correlation Analysis,CCA)入手,分析现有基于相关性的各种降维方法的优缺点,并分别针对单视图数据和多视图数据提出了一系列有效的高维数据降维方法。本文工作主要包括四部分:
   (1)针对全监督的单视图数据设计新的监督型降维方法。用CCA实现全监督的单视图数据的降维时,通常将原始数据作为第一个视图,而把与每个样本对应的类标号编码作为第二个视图。已有研究者证明了采用one-of-C或者one-of-(C-1)编码时,CCA与原数据上直接进行线性判别分析(Linear Discriminant Analysis,LDA)等价,但是他们没有给出等价的原因。我们首先分析其原因,然后结合分类器设计,利用样本与其对应类标号相关性最大化来设计两种不同的降维方法。这两种降维方法均利用广义相关分析实现了单视图数据的监督降维,避免了与LDA等价,降低了训练和测试的复杂度,在人工数据集和真实数据集上的实验结果进一步验证了该方法的有效性。
   (2)仍然针对全监督的单视图数据,进一步结合大间隔学习,提出了一个新的监督型降维方法一大相关分析方法(Large Correlation Analysis,LCA)。不同于现有的基于相关分析的降维方法,它们追求最大化所有训练样本的整体相关性,而LCA旨在最大化所有训练样本与其类标号的最小相关性,从而克服了与LDA等价的弊端。LCA的目标函数最终转换为松弛的箱子约束的二次规划问题,它可由Projected Barzilai-Borwein Method(PBB)方法有效求解。在部分UCI数据集和美国国家邮政局(USPS)手写字库上的实验结果验证了LCA方法性能的优越性。
   (3)对全监督全配对的多视图数据,提出一个新的降维方法。受监督型流形学习方法的启发,利用每个视图数据集的局部结构信息和判别信息,构建相似度矩阵和类信息矩阵,提出监督型局部保持的典型相关分析(Supervised Locality Preserving Canonical Correlation Analysis,SLPCCA),该方法不但突破了CCA处理数据时的线性约束,提高了处理非线性问题的能力,而且克服了局部保持的典型相关分析(Locality Preserving Canonical Correlation Analysis,LPCCA)忽视类信息的问题,提取的特征更有利于分类。在多特征手写体数据库(MFD)和美国国家邮政局手写字库(USPS)上的实验结果验证了该方法的有效性。
   (4)对半监督半配对的多视图数据,提出一种新的降维方法。虽然半监督半配对的多视图数据在实际应用中大量存在,可是现有相关的降维方法通常仅关注配对信息或者仅关注监督信息,得到半配对的多视图数据降维方法和半监督的多视图数据降维方法,却没有同时关注配对信息和监督信息的降维方法,我们同时关注数据的配对信息、判别信息和结构信息,首先提出一个一般性的半监督半配对多视图数据降维框架,该框架囊括了现有的一些方法。进一步设计一个具体的降维方法一半监督半配对广义相关分析(Semi-supervised and Semi-paired GeneralizedCorrelation Analysis,S2GCA),该方法旨在寻找既能保持配对数据相关性最大,又能使有标号数据的类间分离性最大,同时还可以最大程度地保持数据的整体结构信息的低维特征。在人工数据集和真实数据集上的一系列实验结果均验证了我们所设计的方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号