首页> 中文学位 >鲁棒半监督学习算法及在生物统计中的应用研究
【6h】

鲁棒半监督学习算法及在生物统计中的应用研究

代理获取

目录

声明

摘要

图目录

表目录

主要符号表

1 绪论

1.1 研究背景与意义

1.1.1 研究背景

1.1.2 问题及研究意义

1.2 监督学习研究进展

1.2.1 监督学习与无监督学习

1.2.2 半监督学习研究现状

1.3 基于图的半监督学习

1.3.1 聚类假设与流形假设

1.3.2 图的构建

1.3.3 标签传播

1.3.4 典型算法

1.3.5 分类器性能评价

1.4 本文的研究内容

1.5 本文的组织结构

2 非负稀疏图半监督学习算法研究

2.1 引言

2.2 稀疏表示与线性图嵌入

2.2.1 稀疏表示方法

2.2.2 局部线性图嵌入

2.2.3 线性邻域标签传播

2.3 基于非负稀疏概率图的标签传播算法

2.3.1 非负稀疏概率图构建

2.3.2 非负稀疏概率图上的标签传播

2.3.3 算法描述与复杂度分析

2.4 鲁棒非负稀疏概率图标签传播算法

2.4.1 相关熵及其性质

2.4.2 鲁棒非负稀疏概率图构建

2.4.3 鲁棒非负稀疏概率图上的标签传播

2.4.4 算法分析

2.5 实验

2.5.1 数据集描述

2.5.2 算法设置

2.5.3 实验结果分析

2.5.4 图的稀疏性分析与对比算法的参数选择

2.6 本章小结

3 基于高斯-拉普拉斯正则化的鲁棒半监督学习研究

3.1 引言

3.2 高斯拉普拉斯正则化与最大相关熵条件

3.2.1 GLR半监督学习框架

3.2.2 最大相关熵原理

3.3 基于GLR-MCC的半监督学习算法

3.3.1 GLR-MCC的问题描述

3.3.2 GLR-MCC的求解方法

3.3.3 算法描述与分析

3.4 实验与结果分析

3.4.1 数据集描述与算法设置

3.4.2 UCI数据集

3.4.3 ORL和FRGC数据集

3.5 本章小结

4 基于图的鲁棒大间隔判别分析算法研究

4.1 引言

4.2 NDA与补丁排列

4.2.1 LDA和NDA

4.2.2 补丁排列框架

4.3 大间隔判别分析与离群值检测

4.3.1 问题描述

4.3.2 正切逼近

4.3.3 正切排列

4.3.4 基于图的离群点检测

4.4 实验

4.4.1 数据集描述

4.4.2 判别分析实验

4.4.3 正则化判别分析

4.4.4 参数选择

4.5 本章小结

5 算法在生物统计识别中的应用研究

5.1 引言

5.2 基于基因表达数据的肿瘤分类

5.2.1 基因芯片与基因表达谱

5.2.2 实验数据集及描述

5.2.3 算法流程与实验设置

5.2.4 实验结果分析

5.3 蛋白质二级结构预测

5.3.1 二级结构预测方法

5.3.2 蛋白质序列特征提取与编码

5.3.3 预测算法流程

5.3.4 数据集及实验设置

5.3.5 实验结果分析

5.4 本章小结

6 结论与展望

6.1 结论

6.2 创新点

6.3 展望

参考文献

攻读博士学位期间科研项目及科研成果

致谢

作者简介

展开▼

摘要

半监督学习已经成为机器学习的一个重要研究领域,其中基于图的半监督学习是最具前景的方向之一。这类算法的核心是图的构建问题,不同的构图方法,会对学习算法的性能产生重要影响;同时数据中的噪声以及离群值的存在也会严重影响算法的性能。本文针对这几方面的问题开展研究工作,结合稀疏表示理论、相关熵理论、子空间学习理论,提出了相应的鲁棒学习算法,并在典型的人脸识别数据集上验证了算法的有效性。最后将算法用到典型的生物统计识别问题,即微阵列肿瘤识别和蛋白质二级结构预测中,进一步验证算法有效性的同时,也为解决生物统计识别问题提供了新的半监督解决思路。论文的具体工作包括以下几个方面。 (1)提出了一种基于非负稀疏概率图的鲁棒半监督标签传播算法并证明了算法收敛性,结合相关熵,通过将数据点表示为训练集中其它数据的非负线性组合完成图的构建。优点是通过有效削弱噪声对算法的影响,增强算法的鲁棒性。在多个机器学习数据集上进行的实验结果表明,算法可以获得较高的分类准确率,并具有较强的鲁棒性。 (2)提出了一种基于高斯-拉普拉斯正则化的鲁棒半监督学习算法(GaussianLaplacian Regularized Maximum Correntropy Criterion,GLR-MCC)并给出了收敛性证明,使用最大相关熵准则替换GLR的最小二乘准则,使得算法对噪声具有鲁棒性。算法首先计算图的权重,然后通过优化一个非线性目标函数计算未知样例的标签,在半二次优化技术基础上对目标函数进行贪婪迭代求解,逐步增加目标函数值直至收敛。在标准人脸识别数据集上的实验结果表明,GLR-MCC算法能有效提高学习算法对噪声的鲁棒性。 (3)针对数据中离群值的处理,利用正切逼近和正切排列,提出了一种大间隔判别正切分析方法,在此基础上提出一种离群点检测算法。通过建立一个鲁棒的类间矩阵,从而学到一个健壮的子空间。在人脸识别数据集上的大量实验表明,所提方法能有效提高算法性能,实验也同时展示了算法在人脸识别中的实用性,尤其是在具有挑战意义数据集上的有效性。研究工作还展示了算法的阈值参数选择及其对算法性能的影响。 (4)微阵列肿瘤识别和蛋白质二级结构预测是生物信息学中的两个典型问题,目前应用半监督算法的研究还很少。本文将所提出的非负稀疏表示的标签传播算法应用于白血病、结肠癌等微阵列肿瘤识别与蛋白质序列二级结构预测中,实验结果表明,即使在标记数据很少的情况下,算法仍然可以获得较满意的预测结果。与此同时,实验也展示了所提算法在生物统计识别中的实用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号