首页> 中文学位 >基于DNA甲基化不平衡数据的胃癌分类模型研究
【6h】

基于DNA甲基化不平衡数据的胃癌分类模型研究

代理获取

摘要

胃癌的发病率在我国各类癌症中居首位,胃癌早期无明显症状,不易被发现。因此,早期胃癌的筛查对其及时治疗有着重要的临床价值。目前,胃癌的分类研究大多基于病理学图像,这种方法主要依靠主治医师的临床经验判断,准确率低。为了克服胃癌诊断在形态学和影像学方法上存在的缺陷,本文提出了一种基于DNA甲基化测序数据的胃癌分类方案,实现了对早期胃癌的精准分类。 本论文针对癌症和肿瘤基因图谱(The Cancer Genome Atlas,TCGA)中DNA甲基化测序数据不平衡和高噪声现象,提出了一种基于合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)和Tomek Link算法的集成混合采样模型,有效地解决了数据不平衡问题;其次,为了解决DNA甲基化测序数据样本小和高维度问题,本文采用十折交叉验证划分训练集和测试集,然后利用最小冗余最大相关(mRMR)方法对训练集数据进行特征选择,筛选出122个相关性最大的特征;最后,针对小样本数据集分类中end-2-end模型训练模式容易产生过拟合现象,本文采用pre-trained模型提取特征,再训练其他分类器的方法,涉及到的训练参数少,降低了模型的过拟合风险。本论文使用卷积神经网络(Convolutional Neural Network,CNN)训练pre-trained模型,其后将输出特征送入支持向量机(Support Vector Machine,SVM)、改进的深度森林(Deep Forest,DF)和随机森林(Random Forest,RF)三种分类器进行模型训练,得到最终的分类结果。 实验结果表明,本文提出的基于DNA甲基化不平衡数据的胃癌分类模型在TCGA数据库上获得了98.5%的准确率,在本校药学院提供的自建数据库上获得了96%的准确率,具有较好的泛化能力。相较于目前研究中最好的分类模型,本文提出的模型准确率提高了5%以上。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号