首页> 中文学位 >基于拓扑二级结构和阅读框识别不同细胞器基因组的非编码RNA
【6h】

基于拓扑二级结构和阅读框识别不同细胞器基因组的非编码RNA

代理获取

目录

声明

摘要

第一章 绪论

1.1 引言

1.2 研究背景与意义

1.2.1 非编码RNA简介

1.2.2 非编码RNA与细胞器基因组

1.2.3 microRNA与乳腺癌

1.3 论文结构安排及创新点

1.3.1 论文组织结构

1.3.2 论文的创新点

第二章 特征参量提取和理论预测算法

2.1 引言

2.2 特征提取

2.2.1 核苷酸n-mer频数特征

2.2.2 局域三联体结构片段

2.2.3 阅读框

2.2.4 密码子简并信息

2.2.5 拓扑二级结构

2.2.6 模体信息

2.3 预测算法

2.3.1 离散增量进行特征降维映射

2.3.2 改进的离散量结合K紧邻算法

2.3.3 离散增量结合支持向量机

2.3.4 高效的平均K紧邻算法

第三章 不同细胞器基因组转录的ncRNA组分特征分析

3.1 引言

3.2 ncRNA序列定位信息数据集的建立

3.3 不同细胞器基因组ncRNA序列特征

3.4 阅读框下结构-序列模式下三联体特征分析

3.5 不同细胞器基因组ncRNA序列的模体特征

3.6 结论

第四章 基于多种算法识别不同细胞器基因组转录的ncRNA

4.1 引言

4.2 数据集

4.3 特征值的选取

4.3.1 n-mer序列信息

4.3.2 结构-序列信息

4.3.3 拓扑二级结构信息

4.3.4 密码子简并信息

4.3.5 序列模体信息

4.4 多种算法识别不同细胞器基因组ncRNA

4.4.1 SVM算法识别不同细胞器基因组ncRNA

4.4.2 iK-MID算法识别不同细胞器基因组ncRNA

4.4.3 ID-SVM算法识别不同细胞器基因组ncRNA

4.4.4 iKNN算法识别不同细胞器基因组ncRNA

4.4.5 不同种算法识别不同细胞器基因组转录的ncRNA的比较

4.4.6 对ncRNA_361数据集预测结果的分析

4.5 结论

第五章 乳腺癌中hsa-miR-17-92基因簇及其同源体的共调控作用

5.1 引言

5.2 材料与方法

5.2.1 基因簇序列信息及靶基因序列来源

5.2.2 正常乳腺细胞系和乳腺癌细胞系基因表达数据

5.2.3 共调控差异表达靶基因GO富集及KEGG富集分析

5.2.4 差异表达靶基因的蛋白质互作网络图分析

5.2.5 操作流程

5.3 结果与讨论

5.3.1 hsa-miR-17-92及其旁系同源体转录的microRNA序列特征及模体分析

5.3.2 共同调控靶基因在正常乳腺细胞和乳腺癌细胞系中的表达情况

5.3.3 对178个差异表达靶基因进行功能注释和通路分析

5.3.4 差异表达靶基因之间的网络

5.3.3 microRNA与转录因子调控网络分析

5.4 结论

第六章 总结和展望

6.1 工作总结

6.2 工作展望

参考文献

附录

致谢

作者攻读博士学位期间发表和完成的论文目录

展开▼

摘要

随着功能基因组学的飞速发展,对非编码转录产物功能的研究引起越来越多人的关注。人类基因组中超过98%的序列为非蛋白质编码DNA,这些非编码DNA序列大部分会转录成RNA,并且直接以RNA的形式发挥功能,参与基因的转录调控、蛋白质的翻译等重要的生物学功能。而且近年来人们发现非编码RNA往往与疾病、DNA损伤修复、植物的应激反应有关。
  随着RNA数据的积累,细胞核基因组编码的短链或长链非编码RNA(Non-coding RNA,ncRNA)被确认对线粒体的功能以及线粒体动力学有一定的调节作用。许多ncRNAs一方面调控与细胞器功能相关的核基因,同时也与线粒体的形态、新陈代谢,线粒体自噬以及与线粒体有关的凋亡有关。然而,人们对遗传信息在不同细胞器间以ncRNAs形式传递的了解长期以来仍然有限。因此,理解细胞器之间的ncRNAs信息传递显得非常重要。随着ncRNA研究在细胞器基因组水平的日益深入,发现对不同细胞器基因组转录的ncRNA的识别有助于进一步了解不同细胞器基因组ncRNA的功能。本研究在细胞器基因组水平对不同细胞器基因组转录的ncRNAs的注释问题进行了系统的研究,包括构建细胞器基因组水平不同定位信息的非编码RNAs数据集、结合ncRNA序列和结构特征提取有效的特征参数并对参数进行优化、预测算法的建立以及算法的推广等。
  积累的组学数据所呈现的基因水平的复杂性很难从蛋白质编码基因数量的角度加以解释,为此,有人认为长期以来被认为是垃圾的、缺乏蛋白质编码能力的ncRNA的调节作用可以解释这种现象。其中,微小RNAs(microRNAs,miRNAs)和小干涉RNAs(siRNAs)一致被认为在生物的调控功能中扮演重要角色。本论文最后,以microRNA为例,研究非编码RNA与靶基因对乳腺癌的发生、发展的调控作用。考虑到多个microRNA对靶基因存在协同调控作用,我们选取在乳腺癌中起抑癌作用的miR-17-92基因簇及其2个旁系同源基因簇转录的15种microRNA序列及其共调控靶基因作为研究对象,对基因簇转录的microRNA序列特征及其共调控靶基因在乳腺正常组织和乳腺癌组织中的调控作用进行研究。论文主要的研究内容如下:
  一、我们首次从NONCOGING v3.0数据库中收集并整理出有细胞器基因组注释的ncRNA序列,并对序列长度分布进行分析。考虑到序列相似性对预测的影响,进一步采用Cd-hit软件构建了序列相似性在80%以下的数据集ncRNA_361 dataset。从最简单的碱基物理化学特性出发,讨论不同细胞器基因组转录的ncRNA序列的理化特性。在此基础上进一步考虑阅读框下的n-mer组分偏好,结构-序列模式下三联体组分,以及简并密码子偏好。通过深入探讨无阅读框与阅读框对识别不同细胞器基因组转录的ncRNA序列的影响,发现最优阅读框为第一阅读框。
  二、考虑到ncRNA的结构信息更能反映ncRNA执行功能时的空间构象,而保守模体反映了序列在长期进化过程中的压力。我们首次提取ncRNA序列的拓扑二级结构特征和保守模体作为在细胞器基因组水平识别ncRNA的特征参量。特征的融合不可避免会带来维数的增加,我们结合前人的经验,提出两种不同的降维方法:一是特征的降维映射,二是基于mRMR的增加特征选择(IFS)的方法,即选取最优特征子集。结合目前较为流行的离散增量算法(increment of diversity classifier, ID)、K紧邻算法(K-nearest neighbor classifier,KNN)以及支持向量机算法(support vector machine,SVM)提出多算法的融合:改进的离散量结合K紧邻算法(the improved K-minimum increment of diversityclassifier, iK-MID)、高效的平均K紧邻算法(the improved K-nearest neighborclassifier, iKNN)以及离散增量结合支持向量机算法(the increment of diversitycombining support vector machine,ID-SVM)。最后,通过不同算法之间的相互比较,探索更加有效的细胞器基因组ncRNA识别的理论模型。
  三、应用生物信息学手段,对特定miRNA基因簇(hsa-miR-17-92基因簇)及其旁系同源基因簇转录的miRNA序列特征及其共调控靶基因在乳腺不同组织的表达水平进行了研究,并利用反馈机制简单解释该miRNA对下游基因的调控机制,为生物学实验提供了有一定研究意义和价值的线索。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号