首页> 中文学位 >基于新一代测序数据的启动子类型识别研究
【6h】

基于新一代测序数据的启动子类型识别研究

代理获取

目录

第1章 绪 论

1.1 课题背景及研究的目的和意义

1.2 国内外研究现状分析

1.3 本文的主要研究内容

第2章 多细胞系基因表达研究

2.1 前言

2.2 数据获取及处理

2.3 多细胞系基因表达情况分析

2.4 基因表达水平与转录起始位点之间距离的关系

2.5 本章小结

第3章 基于新一代测序数据启动子类型识别

3.1 前言

3.2 数据获取及处理

3.3 多细胞系启动子类型识别

3.4 本章小结

第4章 机器学习方法在启动子识别研究中的应用

4.1 前言

4.2 数据获取及处理

4.3 组蛋白修饰特征

4.4 基于机器学习算法的启动子类型识别预测

4.5 本章小结

结论

参考文献

声明

致谢

展开▼

摘要

对于人类基因组的整体探究工作已进入“后基因组时代”,这是一个以揭示、阐明、挖掘基因组功能为核心研究对象的时代,在测序技术大力发展的东风下,基因表达产物和表观信息的功能鉴定已然进入“大规模、高通量”的全新阶段。对于基因表达调控机理的研究俨然是热门课题。而对于基因表达调控网络中的关键元件——启动子类型识别研究成为更深入理解人类基因组庞杂调控机制的敲门砖。
  在本课题中,我们首先对注释基因数据进行了一步预处理,得到本文称之为单一基因的数据,然后基于RNA-seq测序数据,计算多个细胞系(Hepg2、Huvec、Gm12878、K562及H1hesc)的基因表达量及分析各个细胞系的基因表达水平。接着又根据启动子区域有RNA聚合酶II富集的特性,利用Pol II的ChIP-seq数据结合基因表达水平去识别活跃启动子与预备启动子,并研究了包含不同类型启动子的基因的表达水平情况以及在此基础上分析细胞系中的选择性启动子情况。最后,将距离基因转录起始位点上下游各1000碱基对的大区域分割为10个长度为200碱基对的小区段,去统计细胞系H1hesc、Huvec以及Gm12878的6种组蛋白修饰信号在划分区域的分布情况,分析组蛋白修饰信号在不同类型启动子区分布的特异性。以细胞系H1hesc的组蛋白修饰特征数据为训练集,应用机器学习算法训练分类器对细胞系Huvec和Gm12878的候选启动子进行类型预测识别。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号