首页> 中文学位 >基于稳定稀疏主成分的基因表达数据聚类分析方法
【6h】

基于稳定稀疏主成分的基因表达数据聚类分析方法

代理获取

目录

摘要

第1章 绪论

1.1 课题研究的意义

1.2 国内外研究现状及发展趋势

1.3 本文的主要内容和结构

第2章 主成分分析

2.1 特征值分解的方法

2.2 奇异值分解方法

2.3 本章小结

第3章 稀疏主成分的方法及稳定稀疏主成分的方法

3.1 稀疏主成分

3.1.1 预备知识

3.1.2 稀疏主成分的算法

3.2 稳定稀疏主成分

3.2.1 重抽样的方法

3.2.2 向前选择法

3.2.3 稳定稀疏主成分算法

3.3 本章小结

第4章 聚类分析方法

4.1 K-均值聚类

4.2 层次聚类

4.3 本章小结

第5章 基因表达数据实验结果及分析

5.1 基因表达数据来源

5.2 基因表达数据处理

5.3 实验结果与分析

5.3.1 结肠直肠癌数据

5.3.2 肺癌数据

5.4 本章小结

结论

参考文献

致谢

攻读学位期间发表的学术论文

声明

展开▼

摘要

癌症如今已成为人类历史上最难治愈的病症之一,癌症的基因表达数据也逐渐让科研工作者们更加关注,越来越多的人意识到通过对基因表达数据类别的划分可以较快速地发现不同的病变细胞,聚类分析的统计学方法可以帮助我们对疾病的病症进行诊断.然而,目前我们通过实验获得的基因表达数据仅有十几或几十个样本量,而每个样本数据却有上万个基因表达数据,这样具有高维度、小样本的基因表达数据,其中包含着大量的冗杂和干扰实验结果的信息,我们如果利用现有聚类方法将这些数据直接使用聚类分析,往往只能得到准确度很差的结论.在本文中,提出基于稳定稀疏主成分的基因表达数据聚类分析方法问题,稳定稀疏主成分即用稳定选择的方法寻找稀疏因子,不仅有最大方差,还能具有强解释性.我们首先介绍主成分分析是生物信息学中常用的一种基本可视化和降维工具.然而,我们知道主成分可能无法持续估计具有分子数据的典型特征的高维度、低样本中,最大可变性的真正方向.而且载荷因子往往都是非零的,这样一种特点让主成分并不能拥有很强的解释能力.大多数稀疏主成分是在回归分析中变量选择的Lasso理论的基础上提出的,但是,众所周知,Lasso在高维度中缺乏变量选择的一致性,因此,对所选基因产生误导的结果.这种方法不具备稳定性.所以提出了将稳定选择重抽样和向前选择应用于稀疏主成分中获得稳定的稀疏主成分.以上三种方式都可结合K-均值及层次分析的聚类分析方法对GEO数据进行分析.比较三种方法聚类分析准确度.最后,我们应用2个GEO基因表达数据集使用上述过程分析,从实验结果看,我们得到了基于稳定稀疏主成分,运用基因表达数据的聚类分析方法准确度更高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号