首页> 中文学位 >蛋白质与RNA相互作用接口序列模式发现算法研究
【6h】

蛋白质与RNA相互作用接口序列模式发现算法研究

代理获取

摘要

RNA绑定蛋白质(RNA binding proteins)在很多生物学过程起着重要作用,发现RNA在蛋白质上的绑定位点为了解这些过程提供了线索。尽管已有很多方法预测蛋白质与RNA相互作用点位,但正例预测准确性普遍较低。为此,本文提出一种在接口密集区域寻找保守的序列模式算法,并从多种角度验证了序列模式的显著性。
   首先,本文设计并开发了蛋白质与RNA接口区域序列模式发现算法Sim-EISMD(Simpleyet Efficient Interface Sequence Motif Discovery method),通过限制序列模式无效出现和对序列模式内部包含的接口数的控制来保证序列模式的接口富集性,而序列模式的保守性则是通过要求序列模式出现频率高于候选序列的平均出现来支撑的。该算法在普遍采用的接口预测数据集RBPs91上,发现了12种序列模式,其中9种的序列模式的长度为3,并且内部全部为接口氨基酸。3种序列模式的长度为4,内部至少包含三个接口氨基酸。
   为了验证序列模式的显著性,本文构造了20个与原有数据集RBPs91保持氨基酸和接口分布均相同的数据集。算法对这些数据集的检测结果表明,随机条件下出现次数超过两次的序列模式的平均个数为0.45,很少有出现次数超过2次。而真实的RBPs91中的个数是9,二者相差20倍。这表明Sim-EISMD发现的12序列模式并非是偶然的随机出现。
   最后,我们对序列模式的二级机构进行了分析,发现65%的符合12种序列模式的序列片段含有二级结构。在这些结构中,78%是α螺旋结构,32%是β折叠结构,因而,序列模式更倾向于α螺旋结构而不是β折叠结构。
   本文首次将序列模式发现算法应用到蛋白质与RNA相互作用接口区域,并统计学的角度验证了序列模式的显著性。同时,通过对序列模式所在二级结构的分析,发现预测的序列模式大部分含有二级结构,且倾向于α螺旋结构。并且,通过与常用序列模式算法MEME和Gibbs Motif Sampler比较,结果表明现有模式发现算法并不适合该类型的模式发现。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号