首页> 中文学位 >整合模板比对和机器学习方法的蛋白质折叠分类预测
【6h】

整合模板比对和机器学习方法的蛋白质折叠分类预测

代理获取

目录

1绪论

1.1研究背景

1.2国内外研究现状

1.3本文的研究内容

2基于机器学习的蛋白质折叠预测

2.1蛋白质相关知识与结构数据库

2.2蛋白质折叠数据集

2.3特征的提取

2.4生物信息学上的机器学习方法

2.5实验内容及结果分析

2.6本章小结

3基于模板比对的蛋白质折叠预测

3.1模板比对常用的数据集

3.2 HHsearch

3.3实验内容及结果分析

3.4本章小结

4整合模板比对和机器学习的蛋白质折叠识别

4.1整合算法TA-fold

4.2实验结果与比较分析

4.3 TA-fold在线服务器

4.4本章小结

5整合模板比对和机器学习的蛋白质结构类预测

5.1蛋白质结构类

5.2蛋白质结构类数据集

5.3实验分析和讨论

5.4本章小结

结论

参考文献

附录

攻读学位期间发表的学术论文

致谢

声明

展开▼

摘要

蛋白质是由20种标准氨基酸组成的线性序列,序列信息决定了它的结构与功能。其中蛋白质折叠分类预测是蛋白质结构预测中的一个至关重要的步骤。自然界中有一千多种蛋白质折叠,对蛋白质折叠进行研究,开发有效预测算法,不仅有助于了解蛋白质折叠的内在规律,还对蛋白质结构研究具有重要的生物学意义。
  现有两种有效的方法对蛋白质折叠进行分类。一是基于模板比对的折叠识别。当序列相似性较高时,模板比对方法能够得到很好的预测效果。但随着相似性的降低,模板比对方法的可信度也大幅度下降。另一个是使用机器学习算法的从头预测。它是从氨基酸序列出发,提取蛋白质的特征向量,然后预测折叠类型。对这两种方法的结合是从未被探索过的,本文对此进行了探索,取得了较好的结果。
  本研究开发了两种算法,HH-fold和SVM-fold进行蛋白质折叠分类预测。HH-fold利用HHsearch算法进行模板比对,根据比对结果预测折叠类型。SVM-fold是基于支持向量机的从头预测算法,从三个互补的序列谱中提取特征作为SVM的输入。这两种算法结合,产生了TA-fold方法。文中在六个基准数据集上对提出方法和其它从头开始方法与基于模板比对的方法进行了全面的比较与评估。TA-fold方法在 DD数据集上得到了79.9%的正确率。这比其他的从头开始的方法提高5.4-11.7%。当更新这个数据集包含更多的蛋白质折叠后,预测精度提高到97.1%。此外,TA-fold方法在包含6451个蛋白质序列的数据集F184上的预测精度大于90%。在LE数据集上进行的实验表明TA-fold在家族,超家族和折叠的水平上始终优于其它基于模板方法。TA-fold的成功归因于基于模板比对方法和包含丰富的进化信息的从头分类方法的组合。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号