首页> 中文学位 >基于知识的蛋白质结构预测评分函数的研究
【6h】

基于知识的蛋白质结构预测评分函数的研究

代理获取

目录

文摘

英文文摘

上海交通大学学位论文原创性声明及版权使用授权书

第1章绪论

第2章基于两两氨基酸距离分布的评分函数

第3章基于二面角分布的评分函数

第4章组合评分函数

第5章稀疏数据校正

第6章总结

参考文献

致谢

攻读博士期间发表及完成的论文

展开▼

摘要

从蛋白质的一维序列预测蛋白质三维结构是当前生物信息学领域中一个非常具有挑战性的课题。而评分函数的设计是蛋白质结构预测中的核心及关键之一。 评分函数又称为能量函数,一般分为两类:基于物理经验公式的评分函数和基于知识的评分函数。前者是分析粒子之间相互作用的基本原理后得到的经验公式,它能反映客观存在于蛋白质内部或者蛋白质分子和溶剂分子之间的物理作用,但比较复杂且计算成本高。而后者是利用蛋白质结构数据库(PDB)中的己知结构数据作为学习样本,计算得到的具有统计意义的区分参数,它能隐式地体现形成蛋白质天然结构的内在物理化学作用,计算成本相对较低。其预测蛋白质结构的性能依赖于作为学习样本的蛋白质结构的数量和质量。 欧洲分子生物实验室的UWE HOBOHM和CHRIS SANDER建立的pdb_select 25列表是从PDB中选择的相对无偏差且高质量的数据。本文采用其中的蛋白质作为学习样本,设计基于知识的蛋白质结构预测评分函数。本文的主要研究内容如下: (1)从两两氨基酸残基空间距离的分布出发,导出一个依赖距离分 布的评分函数。并通过多次实验确定计算距离分布时的离散区间数目为20。 (2)在蛋白质结构中,主链二面角(φ,φ)的分布就可用拉氏构象图来描画。本文构建了一个基于二面角的评分函数,通过计算确定把(φ,φ)空间离散为6°的网格是最好的选择。 (3)进一步组合上述从距离和角度两个方面建立的评分函数,所得的评分函数性能比前两者有大幅提高。通过正确识别蛋白质天然结构总数和Z-score这两个性能指标,确定了性能最好的一组组合能量,此组合能量函数能识别出150条天然结构的测试集中的109条。 (4)由于20种氨基酸在蛋白质中出现的频率不一样,因此存在着数据稀疏性。本文采用了一种稀疏数据校正策略,通过计算确定了另一组识别性能最优的组合能量,能识别114条天然结构,识别率为76%,Z score值也同时得到改善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号