首页> 中文学位 >高维数据统计学习及其在人脸识别、微阵列分析中的应用
【6h】

高维数据统计学习及其在人脸识别、微阵列分析中的应用

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1高维数据

1.2统计学习

1.3本文的主要工作

14本文的内容安排

第二章分类方法综述

2.1一维线性判别分析

2.2二维线性判别分析

2.3多维线性判别分析

2.4非线性方法

第三章不相关判别分析

3.1引言

3.2特征提取

3.3不相关判别分析

3.4实验结果及分析

3.5小结

第四章二维判别分析

4.1引言

4.2一维判别分析与二维判别分析联系

4.3新框架:(2D)2MMC+LDA

4.4实验结果及分析

4.5小结

第五章显著常量双聚类算法

5.1引言

5.2显著常量双聚类算法

5.3实验结果及分析

5.4小结

第六章相关双聚类算法

6.1引言

6.2相关双聚类模型

6.3相关双聚类算法

6.4实验结果及分析

6.5小结

第七章结束语

参考文献

攻读博士学位期间的研究成果

致谢

展开▼

摘要

本论文的主要工作包括: (一)基于极大间距准则(MMC)的不相关判别分析(UDA)方法模式分类中,判别向量的统计不相关性是一个非常有用的性质。统计不相关的特征包含有最小的冗余信息,而经正交特征向量集投影的特征空间因可能包含一些冗余信息而导致分类性能下降。本文提出了一种新颖的不相关判别分析(UDA)方法。首先,我们对高维数据进行降维处理,讨论了利用奇异值分解得到的两种降维方法:一种是对总的散度矩阵投影;另一种是对类问散度矩阵投影。并且证明了对总的散度矩阵投影可以保持各类样本之问的线性可分,而对类间散度矩阵投影可以保持各类均值向量之间的距离不变。其次,基于具有较强鲁棒性、稳定性和有效性的极大间距准则(MMC),提出了一种不相关判别分析(UDA)算法:该算法不需要考虑数据维数和样本数目的限制,克服了经典LDA的局限。由于不是所有的判别向量都是有用的,在判别向量选取阶段,我们定义了一个优化判别子空间去限制判别向量的数目,从而建立了一种完全自动化的方式验证参数。 (二)基于二维极大间距准则(MMC)的特征提取在人脸识别中所处理的人脸图像数据都是二维的,如果要使用一维判别分析方法,就必须把人脸图像矩阵转化为向量,这种转化会带来两个问题:高维小样本问题和图像结构信息丢失问题。近年来,二维判别分析正是基于这两点而成为了人脸识别中的一项新技术。本质上,二维判别分析是基于图像的行或列去找判别向量,从而挖掘出图像的局部特征,但是从整体上来看,二维判别分析得到的投影矩阵仍然可能含有冗余信息。而一维判别分析是基于整幅图像去找判别向量,考虑的是全局特征。本文结合二维判别分析和一维判别分析的优势,提出了一个基于两个处理阶段的人脸识别框架:“(2D)2MMC+LDA”。第一阶段,提出了一个二维双向特征提取技术:(2D)2MMC。(2D)2MMC可以看成是MMC方法在二维数据上的直接推广。第二阶段,在(2D)2MMC的降维子空间里运行LDA。 (三)基于奇异值分解(SVD)的显著常量双聚类方法双聚类是对微阵列数据进行分析的一个重要途径。使用双聚类算法,我们可以识别出微阵列中的局部结构模型:在特定实验条件下,部分基因具有一致表达。这种模型可能对我们理解不同生理状态下的生物过程提供关键的线索。 本文将网答,在特定条件下,哪些基因表达上调,哪些基因表达下调,哪些基因不显著等问题。这些信息能为我们提供许多有价值的基因网络调控信息。通过特殊的数据预处理,寻找特定实验条件下的表达上调基因组或表达下调基因组可以通过检测显著常量双聚类来实现。本文介绍了一种新颖的思想,以SVD为框架,把挖掘基因表达数据中的常量双聚类问题转换为两个全局聚类问题。在全局聚类问题中,应用统计方法,我们估计了分层聚类里的剪枝阈值。我们的方法能识别出重要的相互调控基因组,并且能有效的把相同类型的样本聚类在一起。在三个公共数据库(Human Tissues,Lymphoma和Leukemia)上的实验结果展现了良好的可视化特征和解释能力。 (四)基于奇异值分解(SVD)的相关双聚类方法一般地,两个基因的相关性是基于所有的实验条件来度量的。但当我们仅对部分实验条件感兴趣时,这种相关性的求法显得不恰当。另外,目前大多数双聚类算法仅去寻找正相关的双聚类。然而,生物学家认为不仅要识别包含正向相关,也要识别包含负向相关基因的双聚类。本文定义了一类更加广泛的双聚类类型一相关双聚类,这种类型具有更直观的生物解释。基于这种新类型,我们定义了一个新的得分公式对其评价。接下来我们利用奇异值分解的两个矩阵与原矩阵之间的关系,把识别相关双聚类问题转化为在两个分解矩阵上寻找可加模型的问题。本文提出的算法得到的双聚类的特点是允许任意位置、可以重叠,而且是内包最大的。该算法在人类器官数据库上显示了良好的生物意义。我们将该算法与一些著名的双聚类方法(OPSM,ISA,SAMBA和CC)应用于酵母数据库上,并比较它们的处理结果,我们所提出的算法得到的双聚类有更高的比例是高度显著丰度的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号