首页> 中文学位 >原核生物调控模体和调节子预测算法研究
【6h】

原核生物调控模体和调节子预测算法研究

代理获取

目录

声明

摘要

第一章 背景知识

§1.1 原核生物中基因的表达与调控

§1.2 调控模体的表示与预测算法

§1.3 直系同源关系与系统发生足迹法

§1.4 本论文的组织结构

第二章 模体预测与分析软件工具包BoBro2.0

§2.1 简介

§2.2 技术方法

§2.2.1 BBR:在全基因组规模上从预测出的模体集合中过滤噪声的新方法

§2.2.2 BBS:基于P-value对一个查询模体实例的搜索和排序

§2.2.3 BBC:模体比较和聚类

§2.2.4 BBA:模体共存在分析

§2.3 数据准备

§2.4 结果

§2.4.1 BoBro2.0能够在全基因组范围上准确有效的预测出调控模体

§2.4.2 BBS能够比FIMO更准确的识别出模体实例

§2.4.3 BBC能够比TOMTOM更准确的识别出模体聚类

§2.4.4 BBA能够识别出起共同调控作用的转录因子

§2.5 总结

第三章 全基因组范围原核生物调节子预测的新方法

§3.1 简介

§3.2 数据和方法

§3.2.1 数据准备

§3.2.2 通过比较基因组进行直系同源基因预测

§3.2.3 系统发生足迹法中同源操纵子和相应调控序列的确定

§3.2.4 操纵子对之间共调控分数的计算

§3.2.5 通过对操纵子的聚类预测调节子

§3.2.6 局部相关性得分和基因功能相关性得分的计算

§3.3 结果

§3.3.1 直系同源操纵子为系统发生足迹法预测模体提供有效信息

§3.3.2 共调控得分能够准确反映出操纵子对之间的共同调控关系

§3.3.3 调节子预测结果与RegulonDB中已知调节子的比较

§3.4 讨论

第四章 操纵子数据库DOOR2.0

§4.1 简介

§4.2 数据库升级

§4.3 DOOR2.0的新特性

§4.3.1 整合转录单元数据

§4.3.2 整合了转录调控元素

§4.3.3 整合了保守操纵子信息

§4.3.4 全新网页界面设计

§4.3.5 在线操纵子预测

§4.4 技术实现

§4.5 总结

第五章 梭状芽孢杆菌40个基因组的比较基因组分析

§5.1 简介

§5.2 方法与材料

§5.2.1 数据来源

§5.2.2 基因功能预测

§5.2.3 泛基因组分析

§5.2.4 调控模体预测和CAZyme基因分析

§5.3 结果

§5.3.1 梭状芽孢杆菌的系统发生分析

§5.3.2 两组细菌之间基本特征的比较

§5.3.3 核基因组与泛基因组分析

§5.3.4 CAZyme基因的识别与分析

§5.3.5 针对CAZyme基因的调控模体预测

§5.4 总结

第六章 总结与展望

§6.1 论文总结

§6.2 展望

参考文献

致谢

攻读博士学位期间完成论文情况

作者简介

展开▼

摘要

生物信息学是近年来快速发展的一门交叉学科,它综合了生物、数学和计算机等领域的知识来进行生物数据的分析和生命现象的研究.序列分析是生物信息学的一个重要组成部分,其中DNA序列模体预测一直是生物信息学中的一个重要研究问题,尤其是转录因子结合位点的预测,既具有重要的生物意义,又具有算法设计上的难度.本论文主要研究的问题为原核生物基因表达调控模体和调节子的预测算法. 基因需要表达为相应的蛋白质才能发挥生物功能,并且需要针对不同自身与外界环境,对表达做出调控.原核生物的表达调控主要是通过RNA聚合酶和调控蛋白之间的相互作用实现.调控蛋白能够识别出基因组DNA序列上特定的序列片段,并与之结合,起到调控作用,这些特定序列称为调控蛋白结合位点.因此在基因组中不但包含了编码蛋白质和RNA的基因序列,还包含了调节基因表达的调控序列.同一调控蛋白的结合位点的长度一般相同,并具有较高的序列保守性,这种序列的保守模式,称为一个cis-调控模体.在原核生物中,基因组上多个连续的基因往往构成一个操纵子,能够共同转录;单个基因也可看作操纵子的特殊类型.被同一调控蛋白所调控的操纵子的集合,称为一个调节子. 在这篇论文中,我们首先对调控模体的模型表示和预测算法做了简要介绍.在已有模体预测算法的基础上,结合原核生物全基因组中调控结合位点的分布特征,我们设计了对所预测模体的生物功能显著性进行考量的方法,能够对所预测出的模体进行准确的筛选;利用模体信息量和保守性特征进行模体的相似性分析和聚类分析;利用超几何分布等统计工具分析模体在全基因组上的共存在特征.这一系列的方法构成了模体预测分析工具包BoBro2.0,相应软件可通过http://code.google.com/p/bobro/免费下载使用. 结合模体预测与系统发生足迹法,我们设计了全基因组调节子预测的新方法.系统发生足迹法使我们能够从同源基因的调控区域中发现调控模体,然而这些结果往往具有非常高的假阳性.为了克服这个问题,我们设计了基于二部图的模体的相似性比较方法,能够对所有模体进行初步筛选,并产生了反映操纵子间共调控关系的得分,即如果两个操纵子之间具有较高的得分,那么它们属于同一个或多个调节子的可能性较大.我们只保留了能够产生较高得分的模体,用来构造模体相似性图,其中以单个模体作为点,以较显著的相似性得分做边,整个图反映出所预测出的模体之间的相似性关系.通过对已知的调节子所对应的图中的点集进行分析,我们发现由这些点集所导出的子图比原图具有更高的边密度和聚类系数,因而能够反映出原核生物调节子的特征.利用这一发现,通过设计聚类算法,我们从图中获得了对应真实调节子的操纵子集合.通过与其它两种能够反映共调控关系的分数的比较,我们设计的方法更加准确反映共调控关系;并且由于我们以模体作为点来预测调节子,很好的解决了调节子之间的交集会使聚类过程不准确的问题,从而更准确预测调节子.我们的预测流程完全基于基因组序列数据,不需要过多的生物注释信息作为辅助,这对于新测序出的基因组具有更重要的使用价值. 为了方便生物学家使用我们设计的算法和工具,我们开发了以操纵子数据为核心的线上数据库DOOR2.0,其中包含了2072个完全测序的原核生物基因组的操纵子结构,而且具有基因功能注释和经过实验验证的调控蛋白结合位点信息.与发表于2009年的之前版本相比,DOOR2.0具有一些列新的特征,(i)包含了来自于实验验证或者基于RNA-seq数据计算预测出的250000个转录单元结构,提供了操纵子的动态功能展示;(ii)整合了以操纵子为中心的数据资源,不仅对每个涉及的基因组提供操纵子结构,而且有功能和调控信息,例如cis-调控因子结合位点,启动子和终止子结构;(iii)对用户提供的基因组进行操纵子预测的高效网络服务;(iv)使用直观的基因组浏览器对用户选择的数据进行可视化展示;(v)类似于Google搜索的基于关键词的搜索引擎,可以从数据库中快速查找所需的信息.数据库会根据测序数据的发布进行更新,可通过http://csbl.bmb.uga.edu/DOOR/进行访问,所有数据和功能均免费提供给用户.最后,利用比较基因组学的种种方法和我们的模体分析工具,我们对梭状芽孢杆菌的40个物种进行了系统的分析,尤其注重与生物质降解相关的基因和功能.通过这些研究,不仅做出了有生物研究价值的发现,也验证了我们开发的方法的实用价值.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号