首页> 中文学位 >基于多组学数据的癌症患者生存期预测研究
【6h】

基于多组学数据的癌症患者生存期预测研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题背景与意义

1.2 国内外研究现状

1.3 论文结构及主要内容

第2章 生物数据收集及预处理

2.1 生物数据概述

2.1.1 组学数据

2.1.2 GBM数据

2.2 生物数据收集

2.3 数据预处理

2.4 本章小结

第3章 基于GBM多组学数据的特征选择算法研究

3.1 常用特征选择算法概述

3.2 基于L1正则化的逻辑回归算法原理

3.3 基于L1正则化的逻辑回归算法的参数优化

3.3.1 参数优化

3.3.2 参数优化算法的评价方式

3.3.3 评价指标

3.3.4 参数优化结果

3.4 算法性能比较

3.5 本章小结

第4章 基于GBM多组学数据的机器学习分类算法研究

4.1 常用机器学习算法概述

4.1.1 朴素贝叶斯

4.1.2 K近邻

4.1.3 决策树

4.1.4 支持向量机

4.2 支持向量机算法原理

4.2.1 线性支持向量机

4.2.2 非线性支持向量机

4.2.3 常用核函数

4.3 支持向量机算法的参数优化

4.3.1 网格搜索法优化参数

4.3.2 交叉验证法评价参数优化算法

4.3.3 支持向量机算法参数优化结果

4.4 模型性能比较

4.5 联合预测模型性能分析

4.5.1 其他评价指标

4.5.2 与已有研究成果比较

4.6 本章小结

第5章 总结与展望

5.1 论文总结

5.2 展望

参考文献

致谢

作者简介

展开▼

摘要

目前癌症发病率越来越高,精准的预后预测不仅可以帮助患者了解他们的生存期望,而且还可以帮助研究者了解疾病的发展规律、指导临床治疗。
  本文提出了一种预测癌症患者生存期的方法,该方法利用数据挖掘技术,研究来自TCGA(The Cancer Genome Atlas)项目的多形性胶质母细胞瘤(GBM,Glioblastoma Multiforme)患者的分子数据和临床数据,得到了一个由特征选择算法和分类算法构成的联合预测模型。与已有研究成果相比,该模型能够以较高的精度预测GBM患者的生存期,判断其生存期是否超过12个月,以便医疗人员能够将患者分到不同的危险组别中,进行更为精准的治疗。本文的主要工作如下:
  (1)数据的收集和预处理。本文研究的癌症为GBM,所用的分子数据和临床数据均来源于TCGA数据库。并且对下载下来的数据进行了一定的预处理,过程包括:缺失值的定义和填补,去除缺失值过多的特征、样本,标准化处理。
  (2)针对GBM患者的分子数据和临床数据,利用基于L1正则化的逻辑回归算法进行特征选择。通过理论分析并且与其他三种常用的特征选择算法(基于树模型的特征选择算法,方差选择法,基于逻辑回归的递归特征消除法)相比较,建模对GBM患者生存期预测得到的AUC分数较高,程序运行时间较短。
  (3)针对GBM患者的分子数据和临床数据,利用支持向量机算法进行分类。通过理论分析并且与其他九种常用的机器学习分类算法相比较,建模对GBM患者生存期预测得到的AUC分数较高,程序运行时间较短。
  (4)将上述特征选择算法和分类算法相结合得到了一个联合预测模型。利用该模型对GBM患者的生存期进行预测,预测精度与使用类似数据结构的已有研究成果相比有所提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号