首页> 中文期刊> 《中华放射医学与防护杂志》 >基于随机森林的电离辐射诱导DNA双链断裂分类模型的构建与应用

基于随机森林的电离辐射诱导DNA双链断裂分类模型的构建与应用

         

摘要

目的构建预测电离辐射诱导DNA双链断裂(DSB)水平的随机森林分类模型,初步研究DSB在基因组中的分布规律。方法将GRCh38参考基因组分为50 kb的片段,根据MCF-7细胞的测序数据把片段分为电离辐射诱导的DSB低水平和高水平区域,以8种表观遗传学特征作为输入,随机将数据集的2/3列为训练集,1/3列为测试集,构建含100棵决策树的随机森林分类模型。分析分类模型中表观遗传学的特征重要性,展示这些标记在不同DSB水平区域的富集差异。结果随机森林分类模型在测试集上预测的准确率为99.4%,精准率为98.9%,召回率为99.9%,受试者操作特征曲线下面积为0.994。8个特征中H3K36me3和DNase标记的重要性最高,富集分析表明DSB高水平区域的这两类标记明显高于DSB低水平区域。结论以表观遗传学数据作为特征输入,随机森林分类模型可在50 kb基因组区域上准确预测电离辐射诱导的DSB水平,分析表明这些DSB可能主要分布在基因组中转录活跃的部位。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号