首页> 中文学位 >基于主成分分析和神经网络的癌症驱动基因预测模型
【6h】

基于主成分分析和神经网络的癌症驱动基因预测模型

代理获取

目录

声明

致谢

摘要

1 引言

1.1 研究背景及意义

1.2 研究现状

1.3 主要研究内容

1.4 本文结构安排

2 微阵列数据及预处理

2.1 微阵列数据

2.2 微阵列数据的特点

2.3 微阵列数据在肿瘤研究中的作用

2.4 预处理

2.4.1 Bioconductor功能包

2.4.2 归一化(Normalization)

2.5 本章小结

3 主分成分析及数据筛选

3.1 微阵列数据的统计学筛选方法

3.2 微阵列数据的主成分分析方法

3.2.1 PCA的基本思想

3.2.2 阈值的确定

3.3 数据筛选

3.4 本章小结

4 模块网络及受限玻尔兹曼机学习驱动基因集

4.1 模块网络

4.1.1 贝叶斯网络(Bayesian Network)

4.1.2 模块网络及构建方法

4.1.3 P函数

4.2 受限玻尔兹曼机

4.2.1 生物分子网络的分析方法

4.2.2 受限玻尔兹曼机及训练方法

4.3 本章小结

5 驱动基因预测实验

5.1 实验数据简介

5.2.1 模型基本流程

5.2.2 数据预处理及筛选

5.2.3 P函数对划分块打分及受限玻尔兹曼机建模

5.3 实验结果分析与验证

5.4 本章小结

6.1 总结

6.2 今后的工作研究与展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

癌症是人类生命和健康的主要威胁之一,它不仅给个人和家庭造成沉重的精神压力和经济负担,也严重影响了全球的经济发展和社会进步。癌症产生机制及其控制研究已经成为全球性的卫生战略研究重点。既往癌症的研究主要集中在寻找其外部诱因,对于内在的致癌机理知之甚少,直到高通量测序技术等方法的出现,使得从基因水平分析内因成为可能。通过分析癌症形成过程中细胞内基因表达水平的变化,人们发现有些基因能够对肿瘤起控制作用,如果抑制这些基因表达或基因通路,就可以终止肿瘤发展的相关事件,这些基因被称为癌症驱动基因。驱动基因是决定癌症的最主要内部原因,针对驱动基因靶向治疗,癌症治疗就可能事半功倍。
  目前,我们主要通过分析大量样本的序列比对结果来预测癌症驱动基因,这种基于生物学的方法易于理解,但往往需要对大量的癌症样本进行测序,花费昂贵。随着分子生物学的快速发展,诸如TCGA(The Cancer Genome Atlas)等组织为研究者提供了数量庞大且更新及时的数据资源,此外,机器学习、数据挖掘等技术的涌现为分析这些数据提供了强大的支撑。驱动基因预测逐渐向数据化方向发展。
  本文介绍了驱动基因的研究背景、意义和方法,并对主成分分析方法和神经网络的基本原理及在本文中的应用做详细分析介绍。基于这两种方法,我们提出了一种用于预测癌症驱动基因的系统生物学模型,该模型能够从微阵列数据出发逐步得到驱动基因预测集,降低实验过程中相关步骤的系统误差和人为误差,可以有效地减少经费支出和实验周期,为癌症的靶向治疗提供依据。本文选取多形性胶质母细胞瘤作为实验对象进行验证。首先,对实验样本数据进行预处理,对肿瘤表达谱数据进行归一化等处理,之后利用主成分分析方法进一步过滤无表达信息或者表达信息过低的表达数据;其次,受模块网络的启发,对筛选出的基因进行划分,将具有相似突变率的基因划分在同一个块中,并对块进行排序;最后,通过受限玻尔兹曼机学习得到驱动基因的预测集,并将预测结果和文本挖掘的结果进行比较,发现有80%左右的基因符合文本挖掘的结果,证明本文提出的模型具有一定的可行性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号