原核生物蛋白质编码区识别及基因组序列分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着DNA测序技术的进步,迄今为止已有接近三百多种原核生物完成测序. 基因识别是进行基因组分析的第一步,在生物信息学研究中占有重要的地位.本论文主要研究内容是原核生物的蛋白质编码基因识别算法和基因组分析. 论文第一部分首先介绍了生物信息学的发展背景及主要研究内容、主要的蛋白质基因识别算法以及DNA序列的Z曲线理论及其应用.Z曲线理论是我们分析原核生物基因组的主要工具,论文第二部分是围绕细菌和古细菌基因识别问题展开的. 论文第二部分主要围绕原核生物基因识别问题展开的.首先分析了Aeropyrum pernix K1基因组中原始注释为可能基因的2694 ORFs的碱基构成.结果发现他们按照三个密码子位的核酸构成共被分为三类(A,B,C).依据聚类算法本文提出了一个编码指标AZ.结果,Aeriopyrum pernix因组中蛋白质编码基因的数目被重新确定为1610个.这个数目显著低于原始注释的2694,也明显低于NCB工工作人员手工检查过的RefSeq重新注释的1841.接下来提出了一种新的识别细菌和古细菌基因组蛋白质编码基因的ab initio算法和相应的计算机软件ZCURVE1.0.选用18个没有用Glimmer注释的细菌或古细菌基因组将ZCURVE 1.0和Gliminer2.02进行全面比较.结果表明,两种算法的平均识别率相当；但是,ZCURVE 1.0具有更低的附加预测率,更高的基因起始和水平转移基因识别率. 尤其对高G+C含量基因组,ZCURVE 1.0表现出明显的优势.将两种算法联合使用,预测成绩显著提高.接下来,又提出了一种新的病毒和噬菌体蛋白质编码基因的ab initio算法和相应的计算机软件ZCURVE_V 1.0.该算法和ZCURVE 1.0一样是以相位特异性的Z曲线理论为基础,使用33个参数来描述编码序列.但是在ZCURVE1.0中使用的判别方法是Fisher判别,而在ZCURVE_V 1.0中使用的是欧氏距离判别,另外在ZCURVE_V 1.0的算法中没有使用负样本.通过对比发现对于长度低于100 kb的病毒和噬菌体基因组ZCURVE_V的预测成绩要优于GeneMark.此外,提出了一种基于自训练的细菌基因起始的预测算法GS-Finder. 论文的第三部分是原核生物基因组序列分析.利用Z曲线方法研究复制链的不对称性.使用Z曲线方法发现Chlamydia muridarum基因组具有分离的碱基使用.根据由变量u<,1>-u<,9>张成的9维空间的位置,K-means聚类方法能够把所有基因中的94﹪聚到正确的复制链.碱基使用和密码子使用表明前导链的基因具有的碱基G比C更多,碱基T比A更多,尤其在第三密码子位.滞后链的基因情况则相反. 染色体序列Z曲线的y分量表明上面的四个基因组G/C和T/A链偏异比其他基因组强烈得多.不同寻常的G/C和T/A链偏异导致了这四个基因组分离的密码子使用和碱基使用.从系统发育的观点来开,这四个基因组属于两个不同的门,这两个门被聚到了一起.接下来我们考察高GC含量基因组编码序列和非编码ORFs的分布情况.我们发现了一个有趣的七类现象:对于高G+C含量基因组,ORFs在9维空间中聚成7类,呈花状结构,6个花瓣状区域围绕着1个中心区域.中心区域对应基因间序列.在6个花瓣状区域中,其中1个区域对应编码序列,其它5个区域分别对应5个非编码阅读框上的非编码ORFs.但是,在中等或低G+C含量的细菌基因组中,没有观察到类似现象.

著录项

作者
郭锋彪;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科生物物理学
授予学位博士
导师姓名张春霆;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类遗传密码;
关键词
细菌基因组; 病毒基因组; 基因识别; 蛋白质编码区; 原核生物;

相似文献

中文文献
外文文献
专利

1. 蛋白质编码区与非编码区的特征与识别 [J] . 孟捷 ,陈滔 ,刘次全 . 生物数学学报 . 1996,第2期
2. 口蹄疫病毒G-01株基因组编码区的序列分析 [J] . 索青利 ,赵明秋 ,陈金顶 . 华南农业大学学报 . 2007,第004期
3. 水稻矮缩病毒基因组第六号片段编码区的cDNA克隆及序列分析 [J] . 刘一飞 ,李毅 ,潘乃 . 病毒学报 . 1994,第3期
4. 水稻矮缩病毒基因组第五号片段编码区的cDNA克隆及序列分析 [J] . 李玮 ,李毅 ,潘乃穟 . 应用基础与工程科学学报 . 1994,第Z1期
5. DBN在蛋白质编码区识别问题中的应用研究 [J] . 胡青渝 ,刘广臣 . 计算机工程与应用 . 2020,第004期
6. FMDV O/HK/2001株基因组编码区的基因克隆与序列分析 [C] . 索青利 ,陈立军 ,陈金顶 . 中国微生物学会兽医微生物学专业委员会2006年学术年会 . 2006
7. 原核生物基因识别程序ZCURVE1.0的发展及基因组序列分析 [A] . 郭锋彪 . 2002

原核生物蛋白质编码区识别及基因组序列分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅