文摘
英文文摘
独创性声明及学位论文版权使用授权书
绪论
1.1原核生物基因组
1.2生物信息学及其主要内容
1.3基因识别算法
1.4本论文的主要工作
第一章DNA序列的Z曲线理论
1.1 DNA序列的Z曲线理论
1.2 Z曲线理论的应用
第二章以核酸分布为基础对超嗜热嗜泉生古细菌Aeropyrum pernix K1 基因组基因进行识别
2.1引言
2.2材料与方法
2.2.1数据库
2.2.2 Z曲线方法
2.3结果与讨论
2.3.1三类现象和它的内在起因
2.3.2重新识别的蛋白质编码基因集
2.3.3聚到类B和类C中的ORFs的起源
2.3.4分析不同类ORFs的核酸组成
2.3.5当前方法的准确率
2.3.6和其他研究者重新注释的对比
2.3.7网络服务
第三章细菌、古细菌基因识别程序ZCURVE 1.0
3.1引言
3.2材料和方法
3.2.1寻找细菌或者古细菌基因组中所有的ORFs和种子ORFs
3.2.2基因识别的核心算法
3.2.3排除重叠ORFs的策略
3.2.4起始位点预测方法
3.3结果和讨论
3.3.1评价算法的指标
3.3.2与Glimmer 2.02对比之一:所有注释的基因和功能己知的基因
3.3.3与Glimmer 2.02对比之二:短基因和水平转移基因
3.3.4与Glimmer 2.02对比之三:基因起始位点预测
3.3.5与Glimmer 2.02对比之四:基因预测的伪正率
3.3.6对高G+C含量超过56%的基因组寻找种子ORFs
3.3.7高GC含量基因组9维空间的聚类及多次Fisher判别
3.3.8联合使用ZCURVE 1.0和Glimmer 2.02
3.4结论
第四章ZCURVE_V:一个新的自训练病毒、噬菌体基因识别程序
4.1引言
4.2材料和方法
4.3结果和讨论
4.3.1评价ZCURVE_V的指标
4.3.2和GeneMark对比之一:具有不同染色体长度的病毒基因组
4.3.3和GeneMark对比之二:具有专门特征的病毒基因组
4.3.4应用ZCURVE_V分析HIV-1、HBV和SARS-CoV基因组
4.3.5被RefSeq注释和GenBank注释错过的新基因
4.3.6翻译起始位点预测
4.3.7解释翻译起始位点预测方法的有效性
4.3.8可能的减少伪正预测的方法
4.3.9预测基因的功能和他们VZ分数之间的关系
4.3.10在匿名的病毒基因组注释过程中优先使用ZCURVE_V
4.3.11ZCURVE_V和GeneMark基因识别家族的联合使用
第五章Z曲线方法揭示的Chlamydia muridarum基因组的链特异性的偏差
5.1引言
5.2材料和方法
5.2.1数据库
5.2.2 Z曲线
5.3.3相位特异性的Z曲线
5.2.4主成分分析
5.2.5 K-means聚类方法
5.3结果和讨论
5.3.1u1-u9的PCA揭示的链特异性的密码子使用偏差
5.3.2用u1-u9的K-means聚类方法定量区分两条复制链上的的基因
5.3.3密码子使用的偏差
5.3.4为什么碱基(密码子)使用分离的现象只在特定的几个基因组中出现?
第六章高GC含量基因组ORFs碱基频率的分析
6.1引言
6.2数据库和方法
6.3结果和讨论
6.4结论
第七章细菌基因翻译起始位点的预测
7.1引言
7.2材料与方法
7.2.1数据库
7.2.2方法
7.2.3自训练方法和种子ORFs
7.3结果与讨论
7.3.1用可靠的数据集检验自训练方法
7.3.2作为基因识别程序的后处理器重新确定基因起始
总结论
参考文献
发表论文及参加科研情况说明
附录
致谢