首页> 中国专利> 一种非核糖体蛋白质-RNA复合物近天然结构的筛选方法

一种非核糖体蛋白质-RNA复合物近天然结构的筛选方法

摘要

一种非核糖体蛋白质-RNA复合物近天然结构的筛选方法,属于蛋白质-RNA分子对接复合物结构预测领域。首先,通过构象搜索获得蛋白质-RNA各种可能的结合模式;然后,对其合理性进行评价,其间综合考虑了蛋白质-RNA分子间的静电和范德华相互作用能,以及复合物界面上氨基酸-核苷酸成对偏好势。各项的权重是通过采用线性回归的方法,来对对接结构的配体均方根偏差和其能量项的加权组合值进行拟合得到的;最后,根据分值从小到大进行排序,从而判断近天然结构。该方法在非核糖体蛋白质-RNA分子对接近天然结构的筛选中有很好的效果,成功率较高,可用于该类蛋白质-RNA复合物结构预测领域,为分子改造和设计提供重要的依据。

著录项

  • 公开/公告号CN103500293A

    专利类型发明专利

  • 公开/公告日2014-01-08

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN201310400300.4

  • 申请日2013-09-05

  • 分类号G06F19/22;

  • 代理机构北京思海天达知识产权代理有限公司;

  • 代理人张慧

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2024-02-19 21:14:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-14

    授权

    授权

  • 2014-02-12

    实质审查的生效 IPC(主分类):G06F19/22 申请日:20130905

    实质审查的生效

  • 2014-01-08

    公开

    公开

说明书

技术领域

本发明属于蛋白质-RNA分子对接复合物结构预测领域,是一种用于筛选非核糖体蛋白质-RNA对接近天然结构的方法。 

背景技术

细胞内RNA众多功能的发挥,如mRNA剪接、tRNA转运、以及蛋白质的翻译调控等,都必须与一定的蛋白质形成特异性相互作用才能实现[1]。目前,随着实验技术的发展,通过X射线衍射和核磁共振等实验手段获得蛋白质单体或RNA单体结构相对容易实现,然而要得到蛋白质-RNA复合物结构却非常困难。因此,通过蛋白质-RNA复合物结构预测方法——分子对接,来得到蛋白质-RNA近天然结构就尤为重要。该方法不仅可用于复合物结构预测领域,而且可为分子改造和设计提供重要依据。 

分子对接由构象搜索和打分筛选两个部分组成,其中前者用于产生大量复合物结合模式,而后者是对前者产生的结构模式进行评价,从而给出可能的近天然结构(近天然结构为与天然结构的配体均方根偏差小于的结合模式)。对于蛋白质-RNA结合模式的构象搜索,目前已有一些现成的软件可以实现,如FTDock[2]和RossetaDock等。对于打分筛选,如何设计合理有效的打分函数具有一定的挑战性[3]。 

国际上发展的对接打分方法主要是针对蛋白质-蛋白质复合物进行的[4]。对于蛋白质-RNA对接打分,目前存在的主要是一些统计势模型。2004年,Chen等人[5]提出了一个距离和方位依赖的氢键统计势,并将其用于复原蛋白质-RNA 界面上的氨基酸。由于界面上氨基酸-核苷酸接触中通过氢键接触的数量只占总体接触数的23.0%,因此单独的氢键统计势并不能完全反应蛋白质-RNA相互作用的信息[6]。Zhao等人[7]从97个RNA-配体复合物结构中提取了原子接触势模型,用于药物设计。但是,该模型并不适用于蛋白质-RNA复合物近天然结构的筛选。比起原子水平的接触势模式,粗粒化的残基水平的接触势模型因其计算量较小而有更加广泛的应用空间。Jones[8]、Treger[6]、Kim[9]、Ellis[10]和Pérez-Cano[3]五个小组分别从32,45,51,89和282个蛋白质-RNA相互作用对中获得了氨基酸-核苷酸成对偏好势,其中Pérez-Cano获得的模型在分子对接打分中的成功率最高,为42.4%[3,11]。 

通过调研文献,我们认为在成对偏好势中,考虑复合物功能类型及蛋白质和RNA的二级结构信息,能进一步提高氨基酸-核苷酸成对偏好势区分正确与错误结构的能力。因为有统计分析显示,在蛋白质-RNA复合物界面上,蛋白质和RNA都有一定的二级结构偏好,且这种偏好与复合物功能类型有关[8,9]。据此,2010年我们构建了一个非冗余非核糖体的蛋白质-RNA相互作用数据库,其中包含252个界面。在此基础上发展了一个考虑复合物功能类型及蛋白质和RNA二级结构信息的氨基酸-核苷酸成对偏好势[11]。该统计势具有60×8的矩阵形式,即60×8氨基酸-核苷酸成对偏好势。其近天然结构筛选成功率为65.5%,比Pérez-Cano小组获得的统计势模型的成功率提高了23.1%[11]。 

为了进一步提高蛋白质-RNA分子对接中近天然结构筛选的成功率,我们在60×8氨基酸-核苷酸成对偏好势模型的基础上又考虑了分子间静电和范德华相互作用的影响,发展了一种新的非核糖体蛋白质-RNA复合物近天然结构的筛选方法。测试结果表明,该方法的成功率比60×8氨基酸-核苷酸成对偏好势的成功率又有9.0%的提高。 

参考文献: 

1.T.W.Nilsen,and B.R.Graveley,“Expansion of the Eukaryotic Proteome by Alternative Splicing”,Nature,vol.463,no.7280,pp.457-463,2010. 

2.E.Katchalski-Katzir,I.Shariv,M.Eisenstein,A.Friesem,C.Aflalo,I.Vakser,“Molecular Surface Recognition:Determination of Geometric Fit between Protein and Their Ligands by Correlation Techniques”,Proc Natl Acad Sci USA,vol.89,pp.2195-2199,1992. 

3.L.Pérez-Cano,A.Solernou,C.Pons,and J.Fernández-Recio,“Structural Prediction of Protein-RNA Interaction by Computational Docking with Propensity-Based Statistical Potentials”,Pac Symp Biocomput,vol.15,pp.269-280,2010. 

4.M.F.Lensink,and S.J.Wodak,“Docking and Scoring Protein Interactions:CAPRI2009”,Proteins,vol.78,no.15,pp.3073-3084,2010. 

5.Y.Chen,T.Kortemme,T.Robertson,D.Baker,and G.Varani,“A New Hydrogen-Bonding Potential for the Design of Protein–RNA Interactions Predicts Specific Contacts and Discriminates Decoys”,Nucleic Acids Res,vol.32,no.17,pp.5147–5162,2004. 

6.M.Treger,and E.Westhof,“Statistical Analysis of Atomic Contacts at RNA-Protein Interfaces”,J Mol Recognit,vol.14,no.4,pp.199-214,2001. 

7.X.Y.Zhao,X.F.Liu,Y.Y.Wang,Z.Chen,L.Kang,H.L.Zhang,X.M.Luo,W.L.Zhu,K.X.Chen,H.L.Li,X.C.Wang,and H.L.Jiang,“An Improved PMF Scoring Function for Universally Predicting the Interactions of a Ligand with  Protein,DNA,and RNA”,J Chem Inf Model,vol.48,no.7,pp.1438-1447,2008. 

8.S.Jones,D.T.A.Daley,N.M.Luscombe,H.M.Berman,and J.M.Thornton,“Protein–RNA Interactions:a Structural Analysis”,Nucleic Acids Res,vol.29,no.4,pp.943-954,2001. 

9.H.Kim,E.Jeong,S.W.Lee,and K.Han,“Computational Analysis of Hydrogen Bonds in Protein-RNA Complexes For Interaction Patterns”,FEBS Lett,vol.552,no.2-3,pp.231-239,2003. 

10.J.J.Ellis,M.Broom,and S.Jones,“Protein–RNA Interactions:Structural Analysis and Functional Classes”,Proteins,vol.66,no.4,pp.903-911,2007. 

11.C.H.Li,L.B.Cao,J.G.Su,Y.X.Yang,and C.X.Wang,“A New Residue-Nucleotide Propensity Potential with the Structure Information Considered for Discriminating Protein-RNA Docking Decoys”,Proteins,vol.80,no.1,pp.14-24,2012. 

发明内容

本发明的目的是提供一种非核糖体蛋白质-RNA复合物近天然结构的筛选方法,用于筛选复合物近天然结构,达到高的成功率。 

一种非核糖体蛋白质-RNA复合物近天然结构的筛选方法,其特征在于,包括以下步骤: 

步骤(1): 

采用FTDock软件对蛋白质-RNA结合模式进行构象搜索。 

由于FTDock是一个用于蛋白质-蛋白质分子对接的软件,构象搜索中静电效应计算不适用于RNA,但是这里我们不考虑静电效应,只是利用了FTDock 中的快速傅里叶变换搜索方法进行构象搜索。具体命令为: 

ftdock-static protein.parsed-mobile rna.parsed-noelec 

其中,protein.parsed为蛋白质结构文件,rna.parsed为RNA结构文件,noelec表示在构象搜索中不考虑静电效应。其他构象搜索参数,如分子表面厚度和角度采样步长等都采取默认参数设置(参考背景技术中文献[2])。对于每一个蛋白质-RNA体系,用FTDock进行构象搜索优选获得10000个结合模式,以用于下一步的分值计算。 

步骤(2): 

对步骤(1)获得的结合模式进行分值计算。该分值是一个加权组合打分函数的结果,涵盖了分子间静电和范德华相互作用能,和考虑了复合物类型和分子二级结构信息的氨基酸-核苷酸成对偏好势。打分函数为: 

分值=0.01017×Eelesa+0.01198×Eelesr+0.01148×Eelela+0.01071×Eelelr+0.02421×Vattr+0.00215×Vrep+0.12786×Erp     (1) 

其中,Eelesa,Eelesr,Eelela,Eelelr,Vattr,Vrep,Erp依次代表静电短程吸引、静电短程排斥、静电长程吸引、静电长程排斥、范德华吸引、范德华排斥和氨基酸-核苷酸成对偏好势;最终,根据复合物体系不同结合模式的打分值的大小由低到高排序,分值较低的结构被认为是近天然结构。公式(1)中每一项前面都有一个权重系数,体现了各项贡献的重要程度。下面列出各项具体的计算公式。 

静电相互作用能为: 

Eele=ΣiΣj332qiqjϵrrij=ΣiΣj332qiqjrij2---(2)

其中,qi,qj分别代表原子i和j的电荷,根据原子类型及其所在的氨基酸和核苷酸类型从AMBER力场参数中获取;rij代表原子i与原子j之间的距离,通过 原子的空间坐标得到;为了避免产生歧异,当rij小于时,则取介电常数是距离依赖的。若Eele<0则为吸引,Eele>0则为排斥;若则为短程作用,则为长程作用。 

范德华吸引和排斥相互作用能分别为: 

Vattr=ΣiΣjϵij[(rm,ijrij)12-2(rm,ijrij)6],(rij0.89×rm,ij)---(3)

Vrep=ΣiΣj10×(1-rij0.89×rm,ij),(rij<0.89×rm,ij)---(4)

其中,rij代表原子i与原子j之间的距离,rm,ij代表原子i与原子j的范德华半径之和,εij是原子i,j势阱深度乘积的平方根。范德华半径及原子势阱深度可根据原子类型及其所在的氨基酸和核苷酸类型从AMBER力场中获取。 

60×8氨基酸-核苷酸成对偏好势为: 

Erp=ΣaΣb-RTln(Pab)---(5)

其中,R为普适气体常数,T为绝对温度,这里取RT=0.59kcal/mol。Pab为考虑了复合物类型及蛋白质和RNA二级结构信息的氨基酸a与核苷酸b之间的成对偏好性,来自于我们2012年的工作(参考文献[11]),具体Pab的数值见表1。这里氨基酸为60种(蛋白质二级结构被分为三类X,Y和Z,这样20种氨基酸就被细分为60种),核苷酸为8种(RNA二级结构被分为两类M和N,这样4种核苷酸就被细分为8种)。在文献[11]中,我们通过统计分析得到了这60种氨基酸和8种核苷酸的界面成对偏好性,以60×8的矩阵形式表示。在分值计算中只需根据氨基酸类型和核苷酸类型,直接在矩阵中找到对应的Pab的值。 

表1.60×8氨基酸-核苷酸成对偏好性 

表1.(继续) 

c:蛋白质二级结构被分为三类X,Y,Z; 

d:RNA二级结构被分为两类M,N; 

根据以上公式(1)-(5),对蛋白质-RNA构象搜索中获得的结合模式进行分值计算,分别获得其分值。 

步骤(3): 

对结合模式所得分值由低到高进行排序,近天然结构包含在分值最低的前2000个结合模式中。通常,近天然结构定义为与天然结构的配体均方根偏差(RMSD)小于的结合模式。 

本发明方法综合考虑了蛋白质-RNA分子间的静电和范德华相互作用能,以及复合物界面上氨基酸-核苷酸成对偏好势;通过采用线性回归的方法来对对接结构的配体均方根偏差和其能量项的加权组合值进行拟合,从而确定各能量项的权重系数;最后构建出该打分函数。 

使用本发明这一非核糖体蛋白质-RNA复合物近天然结构的筛选方法对非核糖体蛋白质-RNA复合物进行近天然结构筛选,前2000个结合模式中保留了75.4%的近天然结构(成功率为75.4%,成功率定义为打分筛选获得的前2000个结构中包含近天然结构的数目占总体近天然结构数目的比值),这极大地缩小了近天然结构的排查范围,降低了实验研究的工作量。该方法的成功率高于现有的其他方法,比目前效果最好的筛选方法的成功率提高了9.0%。其原因归结于,一方面该方法是在60×8氨基酸-核苷酸成对偏好势模型的基础上考虑了分子间静电和范德华相互作用能,另一方面是打分函数中加入了合理的权重系数。 

附图说明

图1为一个结合模式具体的分值计算过程; 

图2为复合物1F7U近天然结构;此近天然结构分值最低,为排第一位的结合模式,,与天然结构的叠落图;其中1所示粗线为近天然结构中的RNA单体;2所示细线为天然结构中的RNA部分。3所示为蛋白质单体,此部分天然结构与近天然结构重合。 

具体实施方式

下面结合实施例对本发明做进一步的说明,但本发明并不限于以下实施例。 

实施例1 

下面以蛋白质-RNA复合物1F7U的近天然结构筛选为例,介绍该方法的实施过程。目标是,已知1F7U的蛋白质单体结构和RNA单体结构,通过实施该方法获得其复合物的近天然结构。 

步骤1: 

将该蛋白质-RNA复合物的蛋白质和RNA单体结构文件分别记为1F7U-protein.parsed和1F7U-rna.parsed,通过FTDock软件进行构象搜索,具体命令如下: 

ftdock-static1F7U-protein.parsed-mobile1F7U-rna.parsed-noelec-out1F7U.dat noelec表示在构象搜索中不考虑静电效应。其他构象搜索参数,如分子表面厚度和角度采样步长等都采取默认参数设置(参考文献[2])。一共产生10000个结合模式,存储在文件1F7U.dat中。随后运行下述命令产生这10000个结合模式的结构文件(原子坐标文件): 

build-in1F7U.dat 

步骤2: 

对以上产生的10000种结合模式的结构,根据发明内容中公式(1)-(5),计算获得他们对应的分值。对一个结合模式具体的计算过程和10000个结合模式的部分分值结果如图1和表2所示。 

表2.对蛋白质-RNA体系1E7K构象搜索获得的10000个结合模式的部分分值 

计算结果 

步骤3: 

对10000个结合模式,根据其分值的大小由低到高进行排序,以获得其近天然结构。在本例中,10000个结合模式中有4个近天然结构。通过该方法的打分排序,这4个近天然结构中较好的3个(其RMSD均小于)分别排在第1,2,3位,第4个近天然结构(RMSD为)排在第71位。图2是排在第一位的近天然结构与天然结构的叠落图。 

实施例2 

本发明方法用于筛选参考文献[11]中提到的另外16个蛋白质-RNA体系的近天然结构(共17个体系,实施例1是其中之一)。在近天然构象筛选中,对 于这些复合物结构中的蛋白质和RNA分子,如果PDB(Protein Data Bank)数据库中有相应的单体结构,我们则采用单体结构;如果数据库中没有实验获得的单体结构,则采用复合物中相应的结合态的蛋白质和RNA分子。近天然结构筛选的结果见表3(17个体系全部列出)。 

17个体系中有10个体系(58.8%),其近天然结构排在了前5位;有14个体系(占82.4%),其近天然结构排在了前50位。从所有体系的总体分析来看,分值排序前2000的结合模式中保留了75.4%的近天然结构。这极大地缩小了近天然结构的排查范围,降低了实验研究的工作量。 

表3.17个蛋白质-RNA体系近天然结构筛选的结果 

表3.(继续) 

e:PDB是Protein Data Bank的缩写,为蛋白质数据库。 

本发明中所述的复合物近天然结构筛选方法很适合于非核糖体蛋白质-RNA体系。测试结果表明,该方法成功率高,可用于该类蛋白质-RNA复合物结构预测领域,同时可为分子改造和设计提供合理的依据,有重要的实际应用价值和研究意义。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号