首页> 中文期刊> 《应用数学进展》 >基于多组学数据的乳腺癌预后预测模型构建

基于多组学数据的乳腺癌预后预测模型构建

         

摘要

本文主要从UCSC Xena数据库中已经整理好的关于TCGA数据库的乳腺癌数据中,挑选了拷贝数变异、RNA基因表达量、RNA外显子表达量三个组学方面的数据。首先,基于三个组学数据的维度远大于样本量的特征,分别对三个组学的数据进行方差阈值过滤,初步筛选过滤掉变化幅度不大的变量,再使用mRMR进行滤波式的变量选择方法,即最大化特征与分类变量之间的相关性,最小化特征之间的相关性,各自筛选得到50个变量。对于离散型的天数表型数据,采用阈值方法将其转化为0-1分类变量,最终将因变量与自变量进行合并,并划分测试集、训练集,使用svm、XGBoost、Logistic、RandomForest四种方法对结果变量进行预后预测,并采用特定的指标对这四种算法进行比较,运用在训练集上,最终得到XGBoost、Logistic两种算法的预测效果要优于svm、RandomForest。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号