首页> 中文学位 >基于序列的蛋白质折叠速率与膜蛋白功能分类研究
【6h】

基于序列的蛋白质折叠速率与膜蛋白功能分类研究

代理获取

目录

文摘

英文文摘

主要创新点

前言

第一章 引言

1.1 生物信息学概述

1.2 研究内容现状与内容

1.3 本文涉及到的几个生物概念

1.3.1 中心法则

1.3.2 蛋白质及其结构

1.3.3 细胞膜与膜蛋白

1.4 本论文的主要内容及结果

第二章 基于二面角序列的蛋白质结构比对

2.1 结构比对简介

2.1.1 结构比对的相关工作

2.2 本文方法

2.2.1 计算蛋白质肽链的二面角序列

2.2.2 二面角的处理

2.2.3 动态时间规整算法比对带方向的二面角序列

2.2.4 距离的修正

2.3 结果和讨论

2.3.1 DTW比对后的修正距离Dist服从广义极值分布

2.3.2 角度序列得分的统计估计

2.3.3 基于Dist的蛋白质结构分类

2.3.4 和其它结构比较算法的比较

2.4 讨论

2.5 小结

第三章 基于快速傅里叶变换的膜蛋白功能分类模型

3.1 膜蛋白简介

3.1.1 膜蛋白研究现状

3.2 方法

3.2.1 数据集

3.2.2 特征选择

3.2.3 模型选择和评价标准

3.3 结果和讨论

3.3.1 三种不同功能的膜运输蛋白的分类结果

3.3.2 对每两个不同功能的膜运输蛋白进行分类

3.3.3 FFT数据长度的影响

3.3.4 物理化学性质对结果的影响

3.4 小结

第四章 基于序列和局部结构熵的蛋白质折叠速率预测模型

4.1 蛋白质折叠问题简介

4.1.1 预测蛋白质折叠速率相关工作

4.2 蛋白质折叠数据和方法

4.2.1 模型设计

4.2.2 评价指标

4.2.3 特征设计

4.2.4 特征选择

4.3 结果和讨论

4.4 小结

第五章 基于序列以及残基活性和溶剂可及面积的蛋白质折叠速率预测模型

5.1 引言

5.2 数据集

5.3 模型设计以及评价指标

5.3.1 相对溶剂性和活性,稳定性

5.3.2 二级结构

5.4 特征设计

5.5 特征选择

5.6 结果与讨论

5.6.1 影响折叠速率的因素

5.7 和其他方法的比较

5.8 例证

5.9 基于其他特征的回归模型

5.10 小结

第六章 原核生物基因组的CDS与ORF序列分析

6.1 引言

6.2 原核生物基凶组的CDS序列分析

6.2.1 基因组宁列

6.2.2 CDS序列的一些特性

6.2.3 以S.Coelicolor为例的统计情况

6.3 ORF序列组的定义与生成算法

6.3.1 ORF序列参数

6.3.2 ORF序列组的定义与件质

6.4 集合MORF(A,po)的生成算法

6.5 实例计算

6.5.1 ORF的的搜索与计算结果

6.5.2 CDS与MORF序列的比较

6.6 小结

6.6.1 注意的问题

第七章 结论

参考文献

致谢

附录

个人简历

展开▼

摘要

蛋白质是生命的物质基础。如何理解蛋白质序列,结构和功能三者的关系是生物信息学研究的重要问题。本文致力于研究蛋白质序列和结构,序列和功能之间的关系。本研究主要结果由以下四部分组成:
   ㈠提出了一个快速的蛋白质结构比对算法。通过利用蛋白质残基的二面角来代表蛋白质的三维结构,利用动态时间规整(Dynamic Time Warping,DTW)来比对二面角序列。我们证明了在PDB-select数据库中不同蛋白质比对后的得分服从参数为μ=94.7697,σ=41.5837,ζ=0.1925的广义的极值分布(Generalized ExtremeValue Distribution,GEVD).通过该分布还可以计算蛋白质结构比对的结构差异性的统计显著性。该比对得分对蛋白质分类还有很好的应用。和其他结构比对算法如CTSS等相比,我们的算法更具有统计意义和时间效率。
   ㈡蛋白在细胞生命活动中扮演着重要的角色。为了利用序列信息来区分膜蛋白功能,我们提出一种基于快速傅里叶变换特征的机器学习方法对来自膜转运蛋白分类数据库(Transport Classification Database,TCDB)中的三类主要膜转运蛋白进行功能分类。使用快速傅罩叶变换(Fast Fourier Transform,FFT)将20种氨基酸的分布,残基的疏水性,平均极性和溶剂化自由能的原始特征数据,转化为频域上的信息作为支持向量机的输入。我们的模型在五倍交叉检验(five-fold crossvalidation)预测准确率分别达到了72.1%,在相同数据集下,比Gromiha et al.等工作的准确率提高了4%。本文的研究证明我们的模型可以有效地对膜转运蛋白的三种主要功能进行分类。
   ㈢提出了两个模型对蛋白质折叠问题进行预测。第一个是基于局部结构信息熵的模型:从AAindex数据库中的531种残基物理化学性质,序列长度信息和局部结构信息熵中筛选特征,分别针对三种折叠机制two-state,multi-state和mixed-state的蛋白质预测其折叠速率,用Jackknife验证模型真实值与预测值之间的相关系数达到0.790,0.829和0.778。和其他模型相比,我们的模型具有输入参数少,计算简单,平均绝对误差小的优点。另一个是基于序列信息出发,考虑残基的二级结构,残基柔性和溶剂可及性提出一个模型PFR-AF,PFR-AF也是针对三种不同的折叠机制来分别预测三种蛋白质的折叠速率。PFR-AF模型有较高的相关性(0.71到0.95),并且平均绝对误差较小(0.75到0.9),我们的模型还解释了对于two-state折叠的蛋白增加处在蛋白质表面的丙氨酸(Ala)可以加快折叠速率,而增加异亮氨酸(Ile)的含量,则可能降低折叠的速率。我们观还察到coil的柔性可以加快折叠过程,处在蛋白质表面的strands的含量则会降低速率。通过增加处在multi-state蛋白质表面的柔性会延长折叠过程。multi-state蛋白质二级结构starnds的柔性也会减慢折叠过程。另外还提供了两个例证来验证模型的正确性。
   ㈣基因组的开放阅读框(ORF)是基因识别与基因组分析的基础。本文给出了基于终止子的集合p0-MORF定义与它的生成算法,证明了由基因组所确定的P0-MORF集合的存在与唯一性。我们还以原核生物S.Coelicolor A3(2)为例讨论了该生物基因组中CDS与p0-MORF序列的相互关系。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号