首页> 中文学位 >蛋白质序列编码与功能预测
【6h】

蛋白质序列编码与功能预测

代理获取

摘要

自从人类基因计划实施以来,各种生物序列数据信息呈爆炸式增长,生命科学的研究已进入了后基因时代。核酸、蛋白质序列信息不断地增长,大量参与生命活动的蛋白质的功能却知之很少。因而对蛋白质的功能预测成为当今信息生物信息学的主要任务之一。由于海量的序列,传统实验的方法已远远不能赶上序列分析的步伐。因而对这些蛋白质的氨基酸序列进行挑选,分析,处理,标注的问题成为当今又一个热点及难点。本论文研究的主要内容就是蛋白质功能类预测方面的问题。主要的工作内容如下:
   提出了蛋白质功能类预测方法的一种数据集选择方法。蛋白质功能类预测方法中一个必要步骤是数据训练集的选择。一般的方法是选取尽可能大的样本训练集。本论文做出了一些探索,首先把所得到的样本集序列按照蛋白质序列长度从小到大进行重新进行排列,并按新序列顺序从小到大取相同数目一系列的样本集,在各个样本集中做功能预测,得到序列长度与序列特征关系在蛋白质功能预测的影响关系。提出了基于测试样本序列长度的选择最邻近样本序列训练集,这样取得的训练样本集较小。然后与一般法对比做功能预测,采取Profile编码为基础,并使用NNA方法做分类检测,两者的预测率几乎相同。实验结果表明,这种选取数据训练集的方法是有效的。
   另外,提出了一种基于聚类的蛋白质功能预测方法。为了提取蛋白质序列的更多的特征信息,提出了两种编码,比较并选取了ProfileAA编码,它融合氨基酸的组成信息、氨基酸的物化性质信息。并与其它三类编码进行比较,证明其合理性。然后再做基于最小路径聚类的功能预测,为了较好的评估,基于自身的分.类方法,做基于聚类的功能类预测与未基于聚类的功能类预测方法的比较,再与其它作者的方法做比较,最后的预测结果表明,这种基于聚类的蛋白质功能类预测方法能取得较高预测率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号