首页> 中文学位 >基于多任务学习模型的癌症基因生存分析研究
【6h】

基于多任务学习模型的癌症基因生存分析研究

代理获取

目录

第一个书签之前

展开▼

摘要

生存分析是当今热门的统计学分支,它是分析生存现象和响应时间数据及其规律的一类统计分析方法。生存分析的研究通常是针对所研究的事物建立相应的模型,通过数据特征进行生存时间预测并进行系统的分析,在医学、生物制药、商业与工业等均有广泛的应用。  然而在收集临床病例数据时,往往受到删失数据的影响导致许多算法无法使用。而使用如Cox比例风险模型或参数回归模型等模型需要对数据进行一些严格的假设,这种做法破坏了事物原有性质,对实际问题的研究是非常不合适的。为了解决上述两种限制条件,本文使用了一种基于多任务学习模型的癌症基因生存分析方法。此算法是一种归纳迁移学习方法,它可以共享相关任务之间的表征,充分获取删失数据特征中的信息,利用隐含在各特征间的特定领域信息来提高模型的泛化能力,能够更好地概括原始任务,解决了其他生存分析算法无法使用删失数据进行训练的问题。同时,在使用多任务学习时不需要对原问题进行任何额外的假设,针对完整的问题进行建模,大大增加了预测精度。  本文的研究重点主要放在如何将生存分析的预测工作转化成使用多任务学习算法来分析建模,提高生存分析的预测性能。研究工作分为以下几个部分:  (1)基础技术研究与相关算法考察。本文详细分析了领域内相关算法对删失数据的处理,通过算法分析、搭建模型、实验与分析等步骤系统地分析了不同算法间处理删失数据的差异,为文本的模型的搭建提供了理论依据。  (2)基础模型与优化算法选择。本文一个很重要的研究目的是如何充分使用删失数据中的信息来提高模型的预测准确度。使用多任务学习模型作为基础模型能够共享相关任务间的表征,利用隐含的特定领域信息来提高模型的泛化能力。同时还引入了矩阵范数惩罚项与交替方向乘子算法,用于解决模型的过拟合问题。  (3)模型的搭建与改进。本文将生存分析中生存时间预测问题转化为经典的二分类回归问题,使用了新的目标函数来解决转化后的回归问题。而解决凸优化问题时引入的交替方向乘子算法进行优化求解。最后对模型的收敛性与时间复杂度进行分析与总结。  (4)实验结果分析。本文使用的数据集为几个主流的高维癌症基因表达生存数据集,使用了本文算法与几种常见的生存分析算法进行了实验,并使用C-index值和AUC值作为评价指标,实验最后还对模型的可扩展性进行了验证。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号