首页> 中文学位 >基于混合分类器的增强子预测
【6h】

基于混合分类器的增强子预测

代理获取

目录

ABBREVIATION

第一章 综述

1.1 非编码DNA概述

1.2增强子概述

1.3表观遗传学

1.4 二代测序技术及其应用

1.5增强子的研究现状及存在的问题

1.6 机器学习算法介绍

1.7 论文的主要研究内容、创新点及技术路线图

第二章 数据处理及混合分类器设计

2.1 数据源简介

2.2 数据格式

2.3 数据处理软件

2.4 数据可视化

2.5 数据预处理

2.6 混合分类器设计

2.7 分类器的评价

第三章 结果与讨论

3.1 数据处理结果

3.2 随机森林的特征重要性分析

3.3随机森林参数对分类器性能的影响

3.4支持向量机的参数对分类器性能的影响

3.5 单一分类器与混合分类器结果比较

3.6 eRFSVM与现有方法的比较

3.7总结与讨论

参考文献

附录

致谢

攻读硕士学位期间已发表或录用的论文

声明

展开▼

摘要

增强子是组织特异性的远端调控元件,对基因的转录调控起着重要作用。对其鉴定和预测是生物信息学研究的一个重大的挑战。目前的研究方法多数采用单一分类器,并且只是预测基于转录共激活因子EP300的增强子,分类器的推广性能较差。
  本研究构造了一个混合分类器eRFSVM,利用随机森林作为基分类器,支持向量机作为主分类器,对增强子进行预测。eRFSVM包含两个组分,eRFSVM-ENCODE和eRFSVM-FANTOM5,利用了不同的模型特征和标签。基分类器利用随机森林对单一组织中的数据集进行训练。主分类器利用支持向量机对基分类器中的结果数据进行模型训练。对于eRFSVM-ENCODE,我们利用Gm12878,Hep,H1-hesc和Huvec四个细胞系中的ChIP-Seq数据作为模型特征,EP300作为标签进行训练,得到了一个混合分类器。对于K562细胞系中的数据进行测试时,发现精密度为83.69%,高于目前所有基于转录共激活因子EP300预测增强子的方法。对于eRFSVM-FANTOM5,利用FANTOM5中基于基因表达水平鉴定的增强子作为标签,进行增强子预测。我们发现,其精密度、召回率、F值、准确率分别为86.17%、36.06%、50.84%和93.38%,高于现有算法的69.92%、18.30%、28.74%、89.20%, 分别提升了23.24%、97.05%、76.90%、4.69%。
  因此,结果表明eRFSVM是现有方法中用于预测无论是基于EP300还是FANTOM5中的增强子的最佳方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号