首页> 中文学位 >基于支持向量机的蛋白质功能预测新方法研究
【6h】

基于支持向量机的蛋白质功能预测新方法研究

代理获取

摘要

随着人类进入后基因组时代,基因功能的注释已成为科学研究的焦点问题。依据中心法则,记录遗传信息的基因必须翻译成蛋白质才能执行其功能,因而蛋白质功能的研究变得至关重要。虽然可以通过实验方法确定蛋白质的功能,但是实验方法费时、费力且费用昂贵,无法满足在全基因组范围内对蛋白质功能进行注释的需要。因此,发展可靠、经济和高通量的蛋白质功能预测方法成为一项迫切任务。本文根据蛋白质功能预测的研究现状,基于机器学习方法支持向量机,从氨基酸序列出发,设计了一系列蛋白质序列的特征表达新编码方法,对蛋白质的功能进行预测研究,主要工作概括如下:
   1.建立了线粒体和叶绿体亚结构预测的新方法。从氨基酸的极性和疏水性出发,基于离散小波变换特征提取方法,提出了一种新的伪氨基酸成分特征编码方法,成功应用于线粒体和叶绿体蛋白质的区分。在此基础上进一步预测了线粒体和叶绿体亚结构,各类亚结构的预测准确率比现有方法提高了3.7%~22.1%,尤其是线粒体外膜和叶绿体内囊体腔的预测结果有极大改进。这些结果表明离散小波变换不仅可以消除氨基酸序列中的噪声成分干扰,而且可以有效地提取整条蛋白序列的次序信息。此外,对线粒体和叶绿体两种蛋白质物理化学性质进行了讨论,发现线粒体蛋白质中极性特征更明显,而叶绿体蛋白质中疏水特征更显著。
   2.构建了蛋白质精氨酸和赖氨酸甲基化修饰位点预测模型PMeS。提出了一种新的位置权重氨基酸成分去反映修饰位点附近残基的位置信息,并将其与氨基酸属性编码和溶剂可及表面面积融合去捕获甲基化位点的特征信息。10-倍交叉验证结果显示,PMeS的特征编码方法对甲基化状态的识别十分有效。同时,对特征的选择、窗口长度、正负样本比例和模型的稳定性进行了深入探讨。不同交叉验证和独立测试的结果表明,PMeS模型稳定可靠且明显优于其它预测工具。基于PMeS模型,我们构建了精氨酸和赖氨酸甲基化修饰位点的在线预测服务网站(http://bioinfo.ncu.edu.cn/inquiriesPMeS.aspx)。
   3.建立了同时预测完整蛋白上赖氨酸残基的甲基化和乙酰化修饰位点的新方法PLMLA。该方法通过属性分组重量编码、位置权重氨基酸成分和二级结构分别提取修饰位点附近的物理化学属性、序列信息和结构特征。对甲基赖氨酸、乙酰赖氨酸和非甲基化与非乙酰化赖氨酸在残基的位置特异属性、物理化学性质和二级结构方面的特征差异进行了详细分析。基于不同训练特征的预测结果揭示,具有多特征融合的预测模型能充分利用不同特征之间的互补信息去改进模型的预测性能。基于独立测试与其它方法进行了比较,PLMLA对甲基赖氨酸的预测准确率比BPB-PPMS和MASA的分别高30.3%和37.88%;对乙酰赖氨酸的预测准确率比LysAcet和N-Ace的相应结果分别高33.33%和36.11%。这充分表明PLMLA方法极大地改进了甲基赖氨酸和乙酰赖氨酸的预测研究现状,是识别赖氨酸残基甲基化和乙酰化修饰的有效工具。最后,我们构建了基于氨基酸序列即可对完整蛋白质序列上赖氨酸的甲基化和乙酰化修饰位点同时进行预测分析的在线服务平台(http://bioinfo.ncu.edu.cn/inquiriesPLMLA.aspx)。
   4.开发了酪氨酸硝基化位点预测的新方法。采用氨基酸残基信息熵和二肽关联熵优化窗口,结合氨基酸的物理化学性质和结构特征构建了蛋白质酪氨酸硝基化位点的预测模型。对信息熵优化窗口和传统连续窗口进行了初步探讨,结果显示信息熵窗口能够有效捕获酪氨酸硝基化肽段上的重要位点,克服短肽序列易丢失信息而单纯增大肽段长度又会引入冗余信息的矛盾,并有效提高模型的预测性能。特征分析揭示酪氨酸残基的局部静电环境、邻近的进化保守位点和长程位点对其硝基化均产生重要影响。本文的分析结果有助于帮助理解酪氨酸的硝基化机制,并对进一步的实验研究提供重要的参考价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号