首页> 中文学位 >基于蛋白质序列和结构描述子的统计势能组合
【6h】

基于蛋白质序列和结构描述子的统计势能组合

代理获取

目录

文摘

英文文摘

第一章 前言

1.1 统计势能的出现和发展

1.2 新一代统计势能的提出

第二章 程序的设计与实现

2.1 编程语言选择

2.1.1 C#语言

2.1.2 Python语言

2.1.3 F#语言

2.2 程序的输入输出

2.2.1程序的输入

2.2.2程序的输出

2.3 HDF数据库

2.4 面向对象设计

第三章 新一代蛋白质统计势能

3.1 蛋白质结构描述子

3.2 统计势能的推导

3.3 局部势能及其组合

3.4 巨离势能及其组合

3.5 用于测试的Decoy Sets

3.6 测试指标

3.7 新一代统计势能的性能

第四章 基于新一代统计势能的势能项组合的挑选与优化

4.1 描述子的计算

4.1.1 二面角的计算

4.1.2 溶剂可及性的计算

4.1.3 残基间距离的计算

4.2 初始组合的推导

4.2.1 势能项的构造

4.2.2 初始组合的形成

4.3 初始组合的性能评估

4.4 加权后的初始组合

第五章 结论

5.1 结论

5.2 讨论

参考文献

在读期间论文发表情况

致谢

展开▼

摘要

众所周知,蛋白质的天然结构具有能量最小点,因此我们可以开发出某些能量函数,来描述蛋白质的力能学特征。当前的能量函数可以分为两大类,即耗时的半经验力场和统计势能函数。半经验力场描述的是蛋白质分子内的各种相互作用,其所需的基本参数,大多来源于对小分子实验结果的数据分析,或者是量子力学的理论计算结果。这种势能可由物理原理推导而得,具有很高的精确度。但其推导过程,需要对蛋白质分子进行全原子描述,同时还要考虑蛋白质分子的溶剂环境,使得计算过程非常耗时,因此在现实研究中应用不大。
   与半经验力场不同,统计势能基于简化的蛋白质描述模型,来源于对蛋白质结构特征的统计分析。统计势能最初由Tanaka and Scheraga提出,在Miyazawa and Jernigan的努力下得到了进一步的发展。其基本原理是,先观察某些蛋白质序列或结构因子,如残基间的距离,扭转角和溶剂可及面等在蛋白质结构数据集中出现的频率,而后利用玻尔兹曼原理将此频率转换成势能。由于统计势能相对简单,计算高效,甚至于和某些半经验力场相比其精确度也不相上下,因而得到了广泛的应用。
   随着蛋白质结构数据库的不断扩大,部分学者的注意力也转向如何利用越来越多的结构信息,以提高统计势能函数的预测力。然而,结果却不尽人意,势能函数的预测力并没有随着结构信息的增加而显著提高。一些学者认为,可能是基于单一蛋白质结构因子的势能函数过于简单,而无法充分利用结构信息。于是他们开始尝试组合若干个结构因子,以导出新的势能函数。结果却发现,原来足够多的蛋白质结构数量,在组合势能的推导中显得非常不足。2006年,Gilis等人提出了一个全新的统计势能函数派生方案,解决了上述问题。这个方案组合了几个蛋白质序列和结构因子:氨基酸类型、主链二面角、溶剂可及性、序列相对位置和残基间距离。同时将蛋白质折叠总自由能分解成子势能项的总和,每一项子势能由不同的结构因子组合推导得出。作者最终得出了42个子势能项,分为局部和距离势能两大类,可以以一定的数量组合加和成总能。作者精心从两大类势能项中各挑选了一组进行测试,声称所得势能函数的表现,好过所有基于残基水平甚至于原子水平的势能函数。
   然而Gilis等人得出的势能函数,其推导和使用略显复杂。我们的工作就是在他们的基础上进行的,目的是在Gilis等人的42个子势能项中找出一个相对简单的组合势能函数,在预测力上不低于他们得出的两组。在挑选过程中,我们对导出的某些算法进行了适当的改变:直接用残基侧链的重心计算残基间的距离,适当简化了算法;逼近原子球体的多面体三角形数目调整为1280,以提高逼近精度;将Gilis等人所得的保存42个子势能项数值的文本文件转化为数据库,以提高查询速度。最后我们得到了4个简化的势能项组合,性能不差于Gilis等人的组合。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号