首页> 中文学位 >基于特征子空间的质谱数据分析
【6h】

基于特征子空间的质谱数据分析

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1课题研究背景

1.2蛋白质谱数据分析

1.2.1蛋白质谱数据的应用

1.2.2蛋白质谱数据分析方法

1.3本文的主要工作

第2章质谱数据

2.1蛋白质芯片

2.2质谱技术

2.3蛋白质谱技术

2.4基于蛋白质谱数据的癌症诊断

第3章数据预处理

3.1数据的预处理

3.1.1数据标准化

3.1.2数据中心化和白化

3.2 T-test检验方法

3.3主成分分析

3.4主元余像集主成分分析

第4章独立成分分析

4.1独立成分分析发展历程

4.2独立成分分析问题模型

4.3独立成分分析原理

4.3.1信息论

4.3.2独立性判据

4.4传统独立成分分析算法

4.4.1 Infomax算法

4.4.2快速ICA算法

4.5监督式独立成分分析算法

第5章分类器

5.1支持向量机

5.1.1统计学习理论

5.1.2线性可分支持向量机

5.1.3非线性可分支持向量机

5.2线性判别分析

5.2.1 LDA的基本思想

5.2.2 LDA存在的问题

第6章本文所提出的方法

6.1实验数据

6.2实验步骤

6.3实验目的

6.4结果评价方法与标准

6.5降维实验

6.5.1 FastIca实验

6.5.2监督式ICA实验

6.5.3实验小结

6.6独立成分实验

6.6.1 FastIca实验

6.6.2监督式ICA实验

6.6.3实验小结

6.7分类器实验

6.7.1 FastIca实验

6.7.2监督式ICA实验

6.7.3实验小结

6.8本章小结

第7章结论

参考文献

致谢

在学期间主要科研成果

展开▼

摘要

蛋白质谱数据技术的出现使一次获得大量生物信息成为现实,也为癌症早期的预测和诊断提供了高效、快速、简单的新方法。但是在蛋白质谱数据分析中,大量质谱特征被用来表现蛋白质谱数据和分子结构之间的关系,这就使得蛋白质谱数据是典型的高维数据。高维数据引起的问题,在蛋白质谱数据分析中都会遇到。目前对蛋白质谱数据的分析常用的步骤如下:对数据的预处理;对处理过的数据提取特征;对数据进行分析并对结果进行评价。其中对特征的提取非常重要,这一步构建的特征子空间的质量直接决定了数据分析的质量和效率,所以高维蛋白质谱数据的特征提取在癌症诊断中非常关键,减少特征是必不可少的步骤。 目前,利用计算机分析蛋白质谱数据,缺乏相关的先验知识,没有统一的理论,而基于特征子空间的独立成分分析方法是一种对非高斯性数据效果良好的特征提取方法。该方法在没有先验知识的情况下对特征提取非常有效,能挖掘出许多未知的因素和规律。本文提出的对蛋白质谱数据分析的新方法正是基于独立成分分析在这方面的优势。 本文在独立成分分析理论的基础上,提出了蛋白质谱数据分析的新方法。为了验证该方法的有效性,实验采用了快速独立成分分析算法和加入类信息的监督式独立成分分析算法,在卵巢癌蛋白质谱数据和前列腺癌蛋白质谱数据中进行验证。为了获得较好的实验结果,实验按照如下步骤进行:首先对数据进行预处理,将数据集分为训练集和测试集两部分,然后利用降维方法(T-test,PCA,二次PCA)减少数据的维数和无关的信息,再用独立成分分析提取独立成分,构建特征子空间,将测试数据投影,并训练分类器(SVM和LDA)进行分类,通过样本划分法对学习的结果进行评估。 为了进一步优化独立成分分析的效果,实验针对独立成分分析本身具有的两个缺点一不能自动生成独立成分个数和处理小样本,进行了实验。针对缺点一,实验在两个数据集上选取了若干独立成分个数进行实验,并总结其规律。针对缺点二,实验采用三种降维方法配合独立成分分析解决小样本问题,并对实验结果进行比较。为了避免实验结果受分类器影响,本文采用了两种分类器(SVM和LDA),以验证独立成分分析方法的可靠性和高效性。 通过检验表明,独立成分分析(快速独立成分分析算法和监督式独立成分分析算法)在参数合适的情况下对蛋白质谱数据分析效果良好,也证明了以本文提出的步骤为基础建立的模型可以有效地对癌症进行预测诊断。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号