首页> 中文学位 >DNA差异甲基化位点识别及其在癌症诊断中的应用
【6h】

DNA差异甲基化位点识别及其在癌症诊断中的应用

代理获取

摘要

目前,在对诸如基因组、表观基因组、转录组、代谢组和蛋白质组等不同组学的研究中,通过开发计算生物学工具识别癌症相关生物标记的研究成果不断涌现,应用生物标记进行癌症诊断的研究也层出不穷。DNA甲基化是一种重要的表观遗传修饰,与癌症的发生和发展密切相关,其主要表现于:在肿瘤细胞的基因中,启动子区域的甲基化水平表现出升高趋势,而整体的甲基化水平呈现下降。作为一种癌症相关生物标记,DNA差异甲基化模式的有效识别,对理解癌症致病机制、癌症诊断以及药物研发等各个方面具有重要意义。本文利用余弦相似度理论提出了一种新的DNA差异甲基化位点的识别方法。此外,本文基于差异表达基因、差异甲基化位点以及差异甲基化区域,运用机器学习方法作为手段,探讨了融合不同基因层面特征的方法是否有助于癌症的诊断。 本文主要的研究工作和创新之处如下: (1)提出了一个新的DNA差异甲基化位点的识别方法。 首先,本文将病例组和对照组中的甲基化数据表示成向量形式,并定义一个基准向量,应用余弦相似度理论,建模甲基化数据;然后,通过给余弦相似度公式添加一个正弦项,显著提高了差异甲基化定量分析的准确性;引入偏态系数建模甲基化数据中存在的离群值,以避免或降低离群值对差异甲基化位点识别的干扰;最后,基于改进余弦相似度公式和偏态系数模型,定义差异甲基化位点分值,该分值不仅指示了CpG位点的甲基化状态,而且可以对甲基化差异程度定量分析。 本方法的创新之处在于:第一,将甲基化数据表示成向量形式,应用余弦相似度理论,建模甲基化向量间方向上和距离上的差异,同时通过添加正弦项,令余弦函数更逼近直线。实验结果表明,该方法不仅显著提高了甲基化位点识别的准确率,而且可以定量分析差异甲基化,准确识别甲基化差异程度高的CpG位点。第二,本文在方法的开发上注重考虑甲基化数据的真实状态,主要体现在两个方面:一是甲基化数据不服从任何明确的分布,但是许多方法尤其是一些统计方法对差异甲基化位点的识别,是基于甲基化数据的正态分布假设,而本文的方法没有对数据分布的假设。二是甲基化数据中存在很多离群值,本文应用偏态系数建模离群值,降低其干扰。 (2)融合了不同基因层面的特征,并证明了融合特征更有助于癌症的诊断。 利用机器学习方法诊断癌症的研究层出不穷,但在选择输入分类器的特征时,基本上都使用单个类型的特征。本文从转录组测序数据和甲基化芯片数据中提取了差异表达基因和差异甲基化位点/区域,并将不同基因层面的特征融合,作为分类器的特征。在分类器的选择上,本文注重选择较常用的、性能较优的分类器,在此基础上,尽量使得不同分类器具有不同的特点,以便于证明融合特征的稳健性。 本文运用ROC曲线分析衡量分类器在不同特征下对癌症样本和正常样本的分类性能,实验结果如下:仅基于差异表达基因特征的分类器总AUC面积为3.587,而基于融合特征的总AUC面积比前者最多提高了7.4%。实验的结论是:多层面基因特征的融合有益于癌症的诊断。虽然本文研究的疾病是癌症,但该方法也可以运用到其他复杂疾病中,并为精准医学提供一些新的思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号