首页> 中文学位 >基于甲基化差异进行肿瘤分类及早诊的深度神经网络模型
【6h】

基于甲基化差异进行肿瘤分类及早诊的深度神经网络模型

代理获取

目录

声明

摘要

前言

1.材料

1.1 数据信息介绍

1.2 数据基本特点

1.3 软件使用

2.2 下载数据文件格式转变处理

2.3 序列信息与参考基因组比对

2.4 获得CpG位点的甲基化信息

2.5 消除相近CpG位点甲基化状态的影响

2.6 使用统计学方法初步筛选甲基化差异性位点

2.7 特异性位点的分布及进一步筛选

2.8 深度神经网络模型的构建

2.9 生成模拟数据及模型性能评估

2.10 与现有模型及方法比较

结果

1.肿瘤基因组整体甲基化状态展示图(Illumina 450K,WGBS)

2.去除CpG位点突变影响

3.高斯函数去除相近CpG位点甲基化影响效果图

4.WGBS与 Illumina 450K数据相关性较高

5.特征性位点展示图

6.深度神经网络模型最优参数确定

7.DNN模型概念图

8.TTR_DNN与 ETP_DNN的模型性能

9.与其他模型准确性相比结果占优

讨论

结论

参考文献

综述 肿瘤DNA甲基化与深度学习

攻读学位期间发表论文情况

致谢

展开▼

摘要

研究背景及目的:DNA甲基化是目前最为常见与重要的表观遗传学特征,与肿瘤的发生发展有密切关系,在肿瘤形成的初期就已经具有明显的特征[1]。肿瘤基因组的甲基化水平除了与正常基因组相比发生剧烈变化外,不同肿瘤类型之间也存在着较大差异。因此甲基化水平的变化可作为特异性的分子标记用以区分肿瘤类型。目前在临床方面多采用一些特定的蛋白分子标记、CT影像等病理指标区分肿瘤类型。但这些方法准确性并不高,并且有些肿瘤在形成的初期,很难通过病理指标检测出来。目前对于早期肿瘤诊断的研究多集中在血浆中游离的肿瘤DNA(ctDNA)的检测[2],但目前这些技术尚不成熟,而且成本相对较高,公开的测序数据也较少。在基因组学分析方面,尽管测序技术日渐成熟,许多肿瘤发生机制在分子生物学领域得到解释,但对于肿瘤基因组,目前的研究大多关注于一些原癌基因以及抑癌基因区域位点的突变以及启动子区域甲基化状态改变[3],对于多种肿瘤类型的区分及早期肿瘤的预测并没有非常有效的生物信息学方法。因此寻找一种对肿瘤类型的区分与早期肿瘤预测提供帮助的方法就显得尤为重要。  研究方法及结果:本课题使用的数据为TCGA数据库中包含24种肿瘤类型的Illumina450K数据,GE0数据库和Roadmap Epigenomics数据库中的WGBS的数据以及模拟数据。对于Illumina450K的数据,使用其提供的计算好的β值作为甲基化水平;对于WGBS数据,使用序列比对软件比对到参考基因组上,通过校正CpG位点的碱基突变以及使用高斯函数对数据的进一步处理,消除了碱基突变以及相近CpG位点的影响,得到较为准确的甲基化水平。经过计算两种类型的数据同种组织相同位点甲基化状态的相关性系数,可得出两种数据有非常高的相关性,能够共同使用。数据经过前期处理后,使用统计学方法去除了在各种肿瘤组织之间表现相似甲基化状态的位点、与对应正常组织相比没有明显甲基化状态变化的位点以及未落在基因组有明确功能区域的位点后,共得到1894个有明显甲基化状态差异的位点。将最后得到的CpG位点作为特征值,构建深度神经网络模型的训练集。对于肿瘤类型的区分和早期肿瘤预测分别构建了不同的深度神经网络模型(DNN),这两个模型的整体结构相同,均包含一个输入层,五个隐藏层以及一个输出层,选用Sigmoid函数作为激活函数,使用克罗内克符号构建标记矩阵。不同的是,早期肿瘤预测模型其输入的特征值、每一层的神经元数量以及学习效率与肿瘤类型的区分模型存在差异。其输入特征值除了去除没有WGBS数据的组织外,还将去除白细胞和白血病这两个组织的特异性位点。之所以采取这样的策略是因为我们的模拟数据将采用各类肿瘤组织数据与正常的白细胞数据按一定比例混合的方式生成,为了尽可能真实的模拟数据,混合时肿瘤组织所占比例较小,因此需要去除这两个组织的特异性位点的影响。两个模型经过多次迭代训练,校正并且与已有的模型包括K最近邻,朴实贝叶斯,logistic回归,支持向量机,随机森林比较,表现出了更为理想的准确率。  研究结论:本课题通过使用数据库中大量的数据,通过生物信息学数据分析技术,发现肿瘤基因组甲基化存在剧烈变化,通过校正CpG位点的碱基突变,以及使用高斯函数对WGBS数据处理,消除了碱基突变以及相近CpG位点的影响后,提取各种肿瘤的甲基化状态特异的位点,以传统统计学与深度神经网络相结合的方法构建深度神经网络(DNN)模型,通过大量真实数据的训练,校正、验证以及与现有模型性能比较。得到准确性较高的两个深度神经网络模型,分别为肿瘤类型区分模型(TTR_DNN)和早期肿瘤预测模型(ETP_DNN),对肿瘤类型的区分与早期肿瘤预测提供了一定帮助。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号