首页> 中文学位 >原核生物蛋白质编码区识别及基因组序列分析
【6h】

原核生物蛋白质编码区识别及基因组序列分析

代理获取

目录

文摘

英文文摘

独创性声明及学位论文版权使用授权书

绪论

1.1原核生物基因组

1.2生物信息学及其主要内容

1.3基因识别算法

1.4本论文的主要工作

第一章DNA序列的Z曲线理论

1.1 DNA序列的Z曲线理论

1.2 Z曲线理论的应用

第二章以核酸分布为基础对超嗜热嗜泉生古细菌Aeropyrum pernix K1 基因组基因进行识别

2.1引言

2.2材料与方法

2.2.1数据库

2.2.2 Z曲线方法

2.3结果与讨论

2.3.1三类现象和它的内在起因

2.3.2重新识别的蛋白质编码基因集

2.3.3聚到类B和类C中的ORFs的起源

2.3.4分析不同类ORFs的核酸组成

2.3.5当前方法的准确率

2.3.6和其他研究者重新注释的对比

2.3.7网络服务

第三章细菌、古细菌基因识别程序ZCURVE 1.0

3.1引言

3.2材料和方法

3.2.1寻找细菌或者古细菌基因组中所有的ORFs和种子ORFs

3.2.2基因识别的核心算法

3.2.3排除重叠ORFs的策略

3.2.4起始位点预测方法

3.3结果和讨论

3.3.1评价算法的指标

3.3.2与Glimmer 2.02对比之一:所有注释的基因和功能己知的基因

3.3.3与Glimmer 2.02对比之二:短基因和水平转移基因

3.3.4与Glimmer 2.02对比之三:基因起始位点预测

3.3.5与Glimmer 2.02对比之四:基因预测的伪正率

3.3.6对高G+C含量超过56%的基因组寻找种子ORFs

3.3.7高GC含量基因组9维空间的聚类及多次Fisher判别

3.3.8联合使用ZCURVE 1.0和Glimmer 2.02

3.4结论

第四章ZCURVE_V:一个新的自训练病毒、噬菌体基因识别程序

4.1引言

4.2材料和方法

4.3结果和讨论

4.3.1评价ZCURVE_V的指标

4.3.2和GeneMark对比之一:具有不同染色体长度的病毒基因组

4.3.3和GeneMark对比之二:具有专门特征的病毒基因组

4.3.4应用ZCURVE_V分析HIV-1、HBV和SARS-CoV基因组

4.3.5被RefSeq注释和GenBank注释错过的新基因

4.3.6翻译起始位点预测

4.3.7解释翻译起始位点预测方法的有效性

4.3.8可能的减少伪正预测的方法

4.3.9预测基因的功能和他们VZ分数之间的关系

4.3.10在匿名的病毒基因组注释过程中优先使用ZCURVE_V

4.3.11ZCURVE_V和GeneMark基因识别家族的联合使用

第五章Z曲线方法揭示的Chlamydia muridarum基因组的链特异性的偏差

5.1引言

5.2材料和方法

5.2.1数据库

5.2.2 Z曲线

5.3.3相位特异性的Z曲线

5.2.4主成分分析

5.2.5 K-means聚类方法

5.3结果和讨论

5.3.1u1-u9的PCA揭示的链特异性的密码子使用偏差

5.3.2用u1-u9的K-means聚类方法定量区分两条复制链上的的基因

5.3.3密码子使用的偏差

5.3.4为什么碱基(密码子)使用分离的现象只在特定的几个基因组中出现?

第六章高GC含量基因组ORFs碱基频率的分析

6.1引言

6.2数据库和方法

6.3结果和讨论

6.4结论

第七章细菌基因翻译起始位点的预测

7.1引言

7.2材料与方法

7.2.1数据库

7.2.2方法

7.2.3自训练方法和种子ORFs

7.3结果与讨论

7.3.1用可靠的数据集检验自训练方法

7.3.2作为基因识别程序的后处理器重新确定基因起始

总结论

参考文献

发表论文及参加科研情况说明

附录

致谢

展开▼

摘要

随着DNA测序技术的进步,迄今为止已有接近三百多种原核生物完成测序. 基因识别是进行基因组分析的第一步,在生物信息学研究中占有重要的地位.本论文主要研究内容是原核生物的蛋白质编码基因识别算法和基因组分析. 论文第一部分首先介绍了生物信息学的发展背景及主要研究内容、主要的蛋白质基因识别算法以及DNA序列的Z曲线理论及其应用.Z曲线理论是我们分析原核生物基因组的主要工具,论文第二部分是围绕细菌和古细菌基因识别问题展开的. 论文第二部分主要围绕原核生物基因识别问题展开的.首先分析了Aeropyrum pernix K1基因组中原始注释为可能基因的2694 ORFs的碱基构成.结果发现他们按照三个密码子位的核酸构成共被分为三类(A,B,C).依据聚类算法本文提出了一个编码指标AZ.结果,Aeriopyrum pernix因组中蛋白质编码基因的数目被重新确定为1610个.这个数目显著低于原始注释的2694,也明显低于NCB工工作人员手工检查过的RefSeq重新注释的1841.接下来提出了一种新的识别细菌和古细菌基因组蛋白质编码基因的ab initio算法和相应的计算机软件ZCURVE1.0.选用18个没有用Glimmer注释的细菌或古细菌基因组将ZCURVE 1.0和Gliminer2.02进行全面比较.结果表明,两种算法的平均识别率相当;但是,ZCURVE 1.0具有更低的附加预测率,更高的基因起始和水平转移基因识别率. 尤其对高G+C含量基因组,ZCURVE 1.0表现出明显的优势.将两种算法联合使用,预测成绩显著提高.接下来,又提出了一种新的病毒和噬菌体蛋白质编码基因的ab initio算法和相应的计算机软件ZCURVE_V 1.0.该算法和ZCURVE 1.0一样是以相位特异性的Z曲线理论为基础,使用33个参数来描述编码序列.但是在ZCURVE1.0中使用的判别方法是Fisher判别,而在ZCURVE_V 1.0中使用的是欧氏距离判别,另外在ZCURVE_V 1.0的算法中没有使用负样本.通过对比发现对于长度低于100 kb的病毒和噬菌体基因组ZCURVE_V的预测成绩要优于GeneMark.此外,提出了一种基于自训练的细菌基因起始的预测算法GS-Finder. 论文的第三部分是原核生物基因组序列分析.利用Z曲线方法研究复制链的不对称性.使用Z曲线方法发现Chlamydia muridarum基因组具有分离的碱基使用.根据由变量u<,1>-u<,9>张成的9维空间的位置,K-means聚类方法能够把所有基因中的94﹪聚到正确的复制链.碱基使用和密码子使用表明前导链的基因具有的碱基G比C更多,碱基T比A更多,尤其在第三密码子位.滞后链的基因情况则相反. 染色体序列Z曲线的y分量表明上面的四个基因组G/C和T/A链偏异比其他基因组强烈得多.不同寻常的G/C和T/A链偏异导致了这四个基因组分离的密码子使用和碱基使用.从系统发育的观点来开,这四个基因组属于两个不同的门,这两个门被聚到了一起.接下来我们考察高GC含量基因组编码序列和非编码ORFs的分布情况.我们发现了一个有趣的七类现象:对于高G+C含量基因组,ORFs在9维空间中聚成7类,呈花状结构,6个花瓣状区域围绕着1个中心区域.中心区域对应基因间序列.在6个花瓣状区域中,其中1个区域对应编码序列,其它5个区域分别对应5个非编码阅读框上的非编码ORFs.但是,在中等或低G+C含量的细菌基因组中,没有观察到类似现象.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号