首页> 中文学位 >人类胚胎干细胞中表观遗传修饰与基因表达的相关研究
【6h】

人类胚胎干细胞中表观遗传修饰与基因表达的相关研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 引言

1.2 研究背景和意义

1.2.1 胚胎干细胞

1.2.2 组蛋白修饰与组蛋白密码

1.2.3 DNA甲基化

1.2.4 高通量测序技术

1.2.5 表观遗传学调控基因表达机制的生物信息学分析

1.3 论文内容与结构

第二章 研究方法

2.1 基因表达值和组蛋白修饰值的计算

2.1.1 基因表达值的计算

2.1.2 基因组五个功能区域上组蛋白修饰值的计算

2.1.3 基因组转录起始位点侧翼区域上组蛋白修饰值的计算

2.2 相关性的计算

2.2.1 Pearson相关系数

2.2.2 Spearman相关系数

2.2.3 偏相关系数

2.3 预测算法

2.3.1 支持向量机

2.3.2 评价方法

第三章 人类胚胎干细胞中组蛋白修饰分布与基因表达的关联分析

3.1 数据集

3.2 组蛋白修饰与基因表达之间Pearson相关系数的计算

3.3 组蛋白修饰与基因表达相互作用网络的构建

3.4 高、低表达基因的划分以及功能分析

3.5 组蛋白修饰在转录起始位点侧翼区域的相关分析

3.5.1 组蛋白修饰在转录起始位点侧翼区域的分布

3.5.2 转录起始位点侧翼区域组蛋白修饰与基因表达相关系数的分布

3.5.3 高、低表达两类基因的组蛋白修饰簇

3.6 组蛋白修饰在五个功能区域内的相关分析

3.6.1 组蛋白修饰在高表达基因中主要定位于基因的启动子,低表达基因中则定位于外显子

3.6.2 组蛋白修饰值在外显子区域较其他区域有更小的变化范围

3.7 关键转录因子基因上组蛋白修饰分布的类型特异性和区域偏好性

3.8 小结

第四章 人类胚胎干细胞启动子CpG含量与组蛋白修饰的相关性

4.1 数据来源及预处理

4.2 特征和量化

4.2.1 划分HCG启动子和LCG启动子

4.2.2 提取启动子区组蛋白修饰谱

4.2.3 组蛋白修饰Heatmap图

4.3 HCG启动子和LCG启动子

4.4 HCG和LCG启动子区域内组蛋白修饰分布

4.5 HCG和LCG启动子区域内组蛋白修饰的相互作用

4.6 关键转录因子基因启动子的分类及组蛋白修饰分布

4.7 结论

第五章 结合表观修饰信息和序列信息的基因表达分类预测

5.1 数据集

5.2 特征提取

5.2.1 转录起始位点侧翼区域组蛋白修饰、DNA甲基化、染色体可及性信号提取

5.2.2 转录因子结合分数

5.2.3 DNA序列信息

5.3 方法

5.4 单特征的评价能力

5.5 组蛋白修饰以及DNA甲基化组合模型的评价指标

5.6 多特征融合模型的评价指标

5.7 小结

第六章 总结和展望

6.1 本文工作总结

6.2 工作展望

参考文献

附录

致谢

攻读学位期间发表和完成的学术论文’

展开▼

摘要

真核生物基因的表达是生物学中一个复杂的过程,受到来自于包括经典遗传学和表观遗传学多种因素的共同调控作用。表观遗传学在生物体的生长、发育以及疾病过程中所发挥的作用越来越多的被了解,并得到了人们更多的关注。高通量测序技术使生物组学相关的研究进入生物大数据时代。那么,对表观遗传学大数据的分析和研究,离不开生物信息学的方法。本论文选用人类胚胎干细胞的表观遗传修饰以及表达量的高通量测序数据,进行两者之间相关性的分析。构建了组蛋白修饰与基因表达之间的相互作用网络;对高、低表达基因不同功能区内组蛋白修饰谱进行详细地比较分析;研究了CG含量对于组蛋白修饰谱的影响;以组蛋白修饰、DNA甲基化等表观修饰信息和序列信息为输入参数,结合支持向量机方法对基因进行高、低表达的分类预测。论文主要的研究内容如下:
  1.研究了16种组蛋白修饰和基因表达之间的定量关系。结果表明,组蛋白修饰大部分促进基因的表达,少量抑制基因的表达。并基于偏相关系数的计算,构建了两者之间的相互作用网络。该网络存在11条相关性较强的边,16种组蛋白修饰中,有7种是对基因表达起直接调控作用,剩余修饰则是通过和这7种修饰发生相互作用来间接地影响基因的表达。
  2.转录起始位点侧翼区域、基因启动子、5'UTR、外显子、内含子和3'UTR是染色体上调控基因表达的重要区域。因此,分别对这些区域内组蛋白修饰在高、低表达两类基因中的分布类型进行了研究。结果表明,在转录起始位点侧翼区域内组蛋白修饰共有四种分布类型,不同的组蛋白修饰在两类基因中的分布存在明显的差异;组蛋白修饰在高表达基因中主要定位于启动子区域,在低表达基因中则主要定位于内含子区域。而且组蛋白修饰在高表达基因的启动子区域与低表达基因的外显子区域内的相关性差异较大。五个功能区域内组蛋白修饰的分布箱线图对比结果表明,染色体结构较为稳定的外显子区域,组蛋白修饰值的变化范围较小。
  3.组蛋白修饰密码即组蛋白修饰之间相互作用的研究是另外一种了解组蛋白修饰调控基因表达机制的重要方法。因此,高、低表达基因转录起始位点侧翼区域内的组蛋白修饰密码分别被研究。结果共得到5个组蛋白修饰功能簇,并且两类基因的组蛋白修饰簇类型不同。对同种组蛋白修饰在染色体上不同位置间的相关性也进行了分析。结果表明,组蛋白修饰在染色体上分布峰区域内的相关性比其他区域内的相关性高。因此,染色体上同种组蛋白修饰相关性较高的区域可以被识别为该修饰的峰区域。
  4.研究了胚胎干细胞自我更新密切相关的11个转录因子基因上的组蛋白修饰的类型特异性和位置偏好性。结果表明,不同的基因上所发生的主要的组蛋白修饰类型不同,并且该组蛋白修饰所偏好定位的功能区域也不同。其中,较为重要的两种组蛋白修饰是H3K4me2和H3K4me3,且主要偏好基因的启动子区域。
  5.CG含量对组蛋白修饰分布也有一定的影响。首先,对启动子进行了不同CG含量的划分,并统计分析了高、低CG含量两类启动子中组蛋白修饰分布的差异。结果表明绝大部分组蛋白修饰都是在高CG启动子有更多的分布。同样,对两类启动子的组蛋白修饰密码进行了分析。结果表明,两类启动子中各有两个不同的组蛋白修饰簇,并且在两类启动子中存在一个包含7种组蛋白修饰的保守簇。通过对胚胎干细胞中编码自我更新特异的关键转录因子的基因启动子CG含量的划分以及组蛋白修饰的分布分析发现,这些基因的启动子大部分都属于高CG含量启动子。组蛋白修饰H3K4me2、H3K4me3和H3K36me3是这些基因启动子区域比较重要的三种修饰类型。
  6.以组蛋白修饰、DNA甲基化、染色体可及性、转录因子以及DNA序列信息为输入参数,结合支持向量机算法对基因的高、低表达进行分类预测。通过将所有特征依次添加来构成不同的组合模型,选用10交叉检验和独立检验评价模型的预测能力。结果表明,随着输入信息的增加,模型的预测能力都有不同程度的提升,预测能力最好的模型是所有特征的组合模型。最好模型的预测精度和马修相关系数可达95.96%和0.92(10交叉检验)、95.58%和0.92(独立检验)。这说明,结合表观修饰信息以及DNA序列信息所构建的模型能够很好地将基因的高、低表达进行分类。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号