首页> 中文学位 >基于基因组学数据的致癌信号通路研究
【6h】

基于基因组学数据的致癌信号通路研究

代理获取

目录

声明

摘要

第一章背景知识

§1.1癌症基因组学

§1.2体细胞突变的检测与分析

§1.3信号通路预测问题

第二章信号通路算法的研究现状

§2.1从头预测算法

§2.2结合蛋白相互作用网络的预测算法

§2.3结合其它组学数据的预测算法

§2.4分析与总结

第三章CovEx算法与实验结果分析

§3.1 CovEx算法简介

§3.2 CovEx算法

§3.3 CovEx修正结果的一致性方法

§3.4 CovEx算法的创新点

§3.5 CovEx算法的实验结果分析

第四章UniCovEx算法与实验结果分析

§4.1 UniCovEx算法简介

§4.2 UniCovEx算法

§4.3 UniCovEx修正结果的一致性方法

§4.4 UniCovEx算法的创新点

§4.5 UniCovEx算法的实验结果分析

第五章算法分析与拓展

§5.1 CovEx算法、UniCovEx算法与其它算法的比较分析

§5.2 CovEx算法与UniCovEx算法的不足及部分改进策略

§5.3不同癌症类型公共驱动信号通路及癌症相关性研究

§5.4今后的研究方向与全文总结

参考文献

致谢

攻读博士学位期间完成论文情况

展开▼

摘要

癌症基因组图谱计划(TCGA)、国际癌症基因组联盟(ICGC)等大规模国际项目已经对数十种癌症类型的成千上万例癌症病人进行测序并生成了大量的癌症基因组数据。分析这些数据的非常重要的挑战问题是,如何有效区分与癌症发生发展密切相关的驱动突变和与癌症的发生发展没有关系的伴随突变?另外,癌症是基因以及信号通路的疾病,如何识别导致癌症的驱动基因以及信号通路?由于最终确定一个突变是否为驱动突变需要测试其生物功能,而我们目前检测突变的能力远远超过通过实验验证其生物功能的能力。因此,通过计算方法预测可能的驱动突变势在必行。本文的研究主要集中在如何利用组合优化方法预测未知的癌症驱动突变、基因以及信号通路。这对于研究和理解癌症的分子机制和发病机理以及癌症的用药治疗等相关问题意义重大。 癌症数据的急剧增加为癌症的研究带来无限机遇的同时,设计有效的计算方法分析当前的数据也面临前所未有的挑战。癌症突变的异质性极大地降低了通过识别频发突变和频发突变基因预测驱动突变和驱动基因的能力。对癌症突变异质性的一个解释是,除了伴随突变的存在之外,驱动突变攻击细胞的信号通路。信号通路在不同病人中的不同突变导致了其功能异常。一些检测已知信号通路或者功能模块的突变富集程度的方法被研发出来。这些方法的局限性在于其所依赖的已知信号通路或者功能模块的信息到目前为止并不完整。根据目前对癌症突变过程的理解,驱动信号通路中的突变展现出两种组合模式:相互排斥性和高覆盖性。基于相互排斥性和高覆盖性识别信号通路的方法主要分为组合学方法和统计学方法。然而,目前的组合学方法不能保证识别出的基因集合具有排斥性,而统计学方法在计算效率上又存在明显的不足。这导致已有方法在实际应用中效果并不理想。另外,仅利用突变数据及其组合性质识别得到的基因集合不一定具有真实的功能相关性。结合更多类型的数据可以提高预测的准确率。例如,一些方法结合蛋白相互作用网络的信息,致力于识别网络上的高频突变子网络。然而,结合多种数据类型系统识别具有排斥性和高覆盖性的驱动信号通路仍然是一大难题。 本文中,我们设计了新的结合癌症突变数据和蛋白相互作用网络数据的方法CovEx,系统识别具有排斥性和高覆盖性的驱动信号通路。我们的方法主要分为以下几步:首先,我们基于蛋白相互作用网络利用随机游走方法构造流网络。流网络中连边的基因对具有较强的拓扑相关性。我们将驱动信号通路中的基因集合的搜索限制在流网络的具有较强拓扑相关性的局部网络上。通过对大量局部网络的系统搜素,我们能够实现对突变数据集有效信息的深度挖掘。由于基因集合排斥性和覆盖度之间的平衡关系,我们设计了二步法进行搜索和筛选。我们基于线性组合指标对每一个局部网络利用线性规划求解候选基因集合,并继续利用新设计的非线性指标对候选基因集合进行评估和筛选。线性指标的不足在于,部分求解得到的基因集合的目标函数值被其中的高频突变基因主导而不具有排斥性。新设计的指标能够保证基因集合中的每一个基因都能对整体的指标值做出显著的贡献,能够对候选基因集合进行有效评估。最后,针对癌症的异质性,我们设计了最小集合覆盖模型推断每一个病人特异的基因模块及其驱动信号通路。这对于癌症个体化治疗的发展具有重要的推动意义。 我们分析了包括十二种癌症类型的泛癌症突变数据集,且对十二种单种类型的癌症数据集分别进行了分析。特别地,我们用不同数据库的三种不同的蛋白相互作用网络数据分别进行实验。为了进一步提高预测的精准度,我们设计了综合三种蛋白相互作用网络数据下实验结果的一致性方法。一致性方法修正了单个蛋白相互作用网络数据下的结果,并综合得到不同结果中一致的驱动信号通路。我们以不同数据库注释的癌症基因为基准分析了不同参数和网络数据下得到的预测结果的敏感度和准确率。经过一致性方法修正后的结果具有更高的准确率。通过与HotNe2等经典方法的结果比较,CovEx的结果具有更高的敏感度和准确率。通过与已知信号通路和GO功能模块的比对分析,我们预测了相应的驱动信号通路与GO功能模块。 CovEx仍然存在不足之处。比如:1)部分求解到的基因集合的目标函数值被其中的少数高频突变基因主导,其生物价值很难确定。2)软件在设计过程中没有实现并行化,在不同局部网络上线性规划的求解实现并行化是未来努力的方向。3)考虑到新设计组合指标的非线性性质以及覆盖度和排斥性之间的权衡,我们只依据其筛选利用原有线性目标函数求解得到的基因集合,而没有直接针对新指标进行求解。因此,部分局部网络上的重要基因集合可能不能被识别出来。依据新指标直接求解候选基因集合并且综合分析多种方法得到的候选基因集合可能进一步提高识别到驱动信号通路中的基因集合的能力。 针对CovEx的不足,本文另外介绍了一种识别癌症中关键均匀互斥突变基因集合的方法UniCovEx。相比于一般意义的基因突变的排斥性,均匀排斥性有助于正确识别驱动信号通路中的基因集合。我们引入排斥熵的概念评估目标基因集合的均匀排斥性,并设计相应的算法。实验结果表明,UniCovEx算法可以作为CovEx算法的有效补充。另外,我们设计了comCovEx算法识别不同癌症类型公共驱动基因集合及其信号通路。在comCovEx算法的基础上,我们研究了不同癌症类型之间的相关性。 我们的方法CovEx和UniCovEx已经用C++语言实现成开源的软件,可以通过以下网址下载:https://sourceforge.net/proj ects/cancer-pathway/files/。

著录项

  • 作者

    高勃;

  • 作者单位

    山东大学;

  • 授予单位 山东大学;
  • 学科 运筹学与控制论
  • 授予学位 博士
  • 导师姓名 李国君;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    基因组学; 数据; 致癌;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号