首页> 中文学位 >基于不同氨基酸分布的蛋白质超家族的识别
【6h】

基于不同氨基酸分布的蛋白质超家族的识别

代理获取

目录

文摘

英文文摘

一引言

二蛋白质超家族数据库的建立及描述

三理论算法及其评价

四最小离散增量方法识别蛋白质超家族

五氨基酸关联的不同表示对结果的影响

参考文献

致谢

攻读硕士学位期间发表的学术论文

展开▼

摘要

蛋白质超家族是由一个或多个不同的蛋白质家族组成的,这些家族成员序列间的一致性(identity)较低,但从它们的结构和功能特征上看却有来自共同起源的可能性,因此通过序列比对寻找它们共同的序列模体成为常用的识别蛋白质超家族和家族的方法。除了序列比较的方法外,氨基酸的物理化学性质也是决定蛋白质折叠的重要因素,其中氨基酸的亲水模式和疏水模式被认为是最保守的。 本文首先选取了单个氨基酸的物理化学性质及其关联分布作为参数(定义为“3p参数”),使用最小离散增量方法对同一结构类中的不同超家族进行了识别。 对全α类的4个超家族self-consistency检验为83.1%,jack-knife检验为80.7%; 对全β类的4个超家族self-consistency检验和jack-knife检验均为80.9%;对α+β类的4个超家族两种检验的结果分别为88.6%,88.0%;识别α/β类的4个超家族时,两种检验的结果分别为69.3%,67.6%。 脯氨酸、甘氨酸、半胱氨酸对结构的形成有巨大的影响,鉴于这三种氨基酸的特殊性,在选取单个氨基酸的物理化学性质及其关联分布作为参数的同时,把它们在各个分段中出现的个数作为另外一部分参数,称之为“6p参数”。以6p参数作为最小离散增量方法中的离散源,对同一组超家族进行识别的结果较选取3p参数有了较大的提高,对全α类的4个超家族进行识别, self-consistency检 验和jack-knife检验分别为93.1%,92.9%;对全β类的4个超家族,两种检验的结果分别为91.5%和90.5%;对α+β类的4个超家族,两种检验的结果分别为92.0%,91.8%;对α/β类的4个超家族,两种检验的结果分别为78.3%,76.4%。 通过一系列的参数选择和计算,并综合考虑蛋白质的整体信息,选取20个氨基酸使用频数、400个氨基酸二联体使用频数以及前面所讨论过的“6p参数”分别作为最小离散增量方法中的离散源,通过离散增量的计算分别打分并综合评比识别同一组蛋白质超家族,对全α类的4个超家族,self-consistency检验和jack-knife检验可达96.0%,94.4%;对全β类的4个超家族,两种检验分别为91.4%和91.0%;对α+β类的4个超家族,两种检验总成功率分别为95.6%,94.7%;识别α/β类的4个超家族时两种检验的结果分别为87.0%和85.7%。对超家族数据库中氨基酸的亲疏水关联分布进行了简单的分析和讨论。 最后,分别在前面所用的超家族数据库和蛋白质结构类数据库的基础上讨论了氨基酸关联的不同表示方式对结果的影响。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号