首页> 中文学位 >基因组序列特征研究及顺式调控元件保守性分析
【6h】

基因组序列特征研究及顺式调控元件保守性分析

代理获取

目录

文摘

英文文摘

论文说明:术语注释表

声明

第1 章 绪论

1.1 节 基因组学

1.1.1 结构基因组学

1.1.2 功能基因组学

1.1.3 比较基因组学

1.2 节 非编码DNA的研究

1.2.1 顺式调控元件

1.2.2 重复序列

1.2.3 内含子

1.2.4 非编码RNA

1.3 节 生物信息学

1.3.1 信息论和熵

1.3.2 基因组信息学

1.4 节 基因组序列特征

1.4.1 基因组序列的局部特征

1.4.2 基因组序列的全局特征

1.5 节 基于全基因组的系统发生分析

1.6 节 功能基因组高通量检测技术及分析方法

1.7 节 本课题的主要研究内容和创新点

1.7.1 主要内容及组织结构

1.7.2 主要创新点

第2 章 核酸序列的相关性研究

2.1 节 基因组序列特征分析

2.1.1 信息论与基因组序列分析

2.1.2 核酸单词频率

2.1.3 二联核苷酸相对丰度

2.1.4 Kullback-Leibler(KL)偏差

2.1.5 功率谱分析

2.2 节 BBC特征

2.2.1 互信息

2.2.2 Base-Base Correlation

2.2.3 特征的扩展

2.3 节 BBC特征稳定性分析

2.4 节 GSFD数据库搜索系统

2.4.1 基于特征的序列分析方法

2.4.2 基于特征的数据库搜索系统

2.4.3 GSFD数据库搜索系统中水平基因转移的检测分析

2.5 节 本章小结

第3 章 基于序列特征的基因组不同功能区域分类研究

3.1 节 研究背景和思路

3.2 节 数据和方法

3.2.1 数据收集

3.2.2 特征选取

3.2.3 主成分分析

3.2.4 判别分析

3.3 节 结果与讨论

3.4 节 本章小结

第4 章 基于BBC的全基因组系统发生学研究

4.1 节 系统发生学

4.1.1 系统发生分析

4.1.2 全基因组系统发生分析

4.2 节 系统发生学分析方法

4.2.1 信息特征的提取

4.2.2 进化树的构建

4.3 节 戊肝病毒的分型

4.3.1 材料和方法

4.3.2 结果与讨论

4.4 节 冠状病毒的进化分析

4.4.1 材料与方法

4.4.2 结果

4.4.3 讨论

4.5 节 本章小结

第5 章 调控元件的保守性分析

5.1 节 识别ER/FoxA1 在全基组因范围的结合位点

5.1.1 ER

5.1.2 FoxA 1

5.1.3 基于Tiling Array的ChIP-chip分析算法

5.2 节 ER和FoxA1 结合位点的保守性分析

5.2.1 种系特异性选择-DLESS算法

5.2.2 ER和FoxA1 结合位点的种系特异性选择

5.3 节 高度保守区域附近基因的功能分析

5.3.1 基因本体论(Gene Ontology,GO)

5.3.2 用基因本体论分析ER/FoxA1 结合位点附近的基因

5.4 节 高度保守调控元件的motif分析

5.5 节 与细胞凋亡相关基因的网络

5.5.1 构建与细胞凋亡相关基因的网络

5.5.2 ER/FoxA1与细胞凋亡基因的相关性

5.6 节 本章小结

第6 章 本研究总结与展望

6.1 节 工作总结

6.2 节 工作展望

参考文献

已发表学术论文清单(第一作者)

致 谢

展开▼

摘要

生物学与信息科学是当今世界上发展最迅速、影响最大的两门科学。而这两门科学的交叉融合形成了广义的生物信息学,正以崭新的理念吸引着科学家的注意。近几年借助信息技术的优势,测序平台得到快速发展,越来越多的生物基因组数据被公布出来,反过来又为生物信息学提出了新的挑战。如何快速而有效的分析这些数据,正成为生物信息学的一个重要研究方向。 基因组序列分析是基因组学的一个重要组成部分和研究领域。在本研究中,我们从信息论的角度,将基因组序列视作遗传信息流,提出了一种新的序列分析特征-BBC(Base-Base Correlation),证明该特征即反映了基因组信息组织的结构规律,也是一种基因组标(signature)。经过BBC特征的计算,一条核酸序列转化成其对应的一个16维特征向量,从而将不同基因组的序列比较,转化为其对应的多维特征向量的数学分析。同时BBC特征法作为一种无比对(alignment-free)法,可以很好的适用于大规模基因组序列比较和序列搜索。BBC特征法对于一条核酸序列,不论其长度是多少,都可将其转化为一个16维的特征向量,这其实是对不同规模的基因组序列的归一化和标准化。因此,BBC特征法可以快速而有效的对基因组序列进行比较分析。 真核生物尤其是人类基因组中包含大量的非编码序列。这些非编码序列包括内含子、基因上游区、基因下游区以及基因间区。我们首先利用BBC特征,并结合核酸单词频率,二联核苷酸相对丰度分析了人类基因组中的基因上游区、基因下游区、外显子、内含子以及基因间区,将序列转化成对应的特征向量。在特征分析的基础上,我们采用判别分析对基因组中不同的功能区域进行判别分类。我们的研究发现,人类基因组中不同的功能区域存在不同的组成特征。我们的结果表明:对于人类基因组中编码蛋白质的外显子,判别准确率达到94%,而对于基因中不编码的内含子,判别准确率达到86%。 伴随着测序技术的迅速发展,全基因组数据的快速增长,对遗传进化领域也提出了新的挑战。基于全基因组的系统发生分析可有效避免基于单一基因或片段的系统发生分析产生的偏向。但基于全基因组序列的比对遭遇到理论和计算上的瓶颈。我们采用BBC特征代替传统的多序列比对,构建系统发生树,提出了一套基于BBC特征的全基因组系统发生学分析方法。首先,我们将这套方法应用于存在争议的戊肝病毒分型。我们的分析表明,基于BBC特征的全基因组系统发生学分析方法,戊肝病毒被分为四个型和若干亚型,不同型的戊肝病毒具有不同的地理分布。这和序列比对的方法以及目前大部分的研究结果相一致,但基于BBC特征的系统发生学分析方法却明显提高了分析效率,将原先需要几天才能完成的工作缩短为几分钟。另外,我们将这套算法应用于冠状病毒的进化研究中。从基于BBC特征构建的进化树上,我们可以看到冠状病毒主要分为四个大的分支,SARS自成一分支,且远离其它冠状病毒。我们进一步从基因组信息结构角度证明了SARS属于一种新型的冠状病毒。同时,我们也确定了在SARS之后新发现的两株冠状病毒(NL63和HKU1)所属分支。 生物信息学的另一个重要应用是借助各种算法和分析工具,关注对人类疾病相关问题的分析。另外,生命科学已进入功能基因组时代,影响基因表达调控的调控元件的研究已成为一个重要的研究方向。博士期间,我被国家公派选拔前往美国哈佛大学进行为期一年的学习和研究。在这期间,作为ENCODE项目的参与者,我们借助哈佛大学及其附属医院在乳腺癌研究方面的优势,应用功能基因组中的高通量检测技术ChIP-chip来分析乳腺癌中的重要基因雌激素受体(Estrogen Receptor, ER)及先锋转录因子FoxA1在全基因组范围内的顺式调控元件,应用DLESS算法分析这些调控元件的保守性。通过基因本体学的分析,我们发现在这些高度保守的调控元件附近的基因与细胞凋亡有关。最后,我们建立了这些与细胞凋亡相关基因的网络,研究网络中的基因与ER和FoxA1的相关性,结果表明这些基因都与ER呈现了很强的相关性,证明ER参与调控保守的细胞凋亡通路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号