首页> 中文学位 >基于多信息融合的蛋白质结构类预测方法研究
【6h】

基于多信息融合的蛋白质结构类预测方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景与研究意义

1.2蛋白质基础理论知识

1.3蛋白质数据库、结构类及数据集

1.4论文的主要工作和安排

2蛋白质结构类预测中信息提取与分类算法

2.1 引言

2.2蛋白质信息提取方法

2.3 预测分类算法

2.4本章小结

3 基于生物序列与结构特征的蛋白质结构类预测

3.1引言

3.2 材料与方法

3.3 结果与讨论

3.4本章小结

4 基于简化PSSM与结构位置信息的蛋白质结构类预测

4.1引言

4.2 材料与方法

4.3 结果与讨论

4.4本章小结

5 总结和展望

参考文献

攻读学位期间研究成果

致谢

展开▼

摘要

随着测序技术的发展,蛋白质序列数据库呈指数增长,而与之对应的蛋白质结构与功能数据库的增速却不成比例。尽管我们可以通过实验方法来确定蛋白质的结构和功能,但该方法费时费力,无法满足日益增长的蛋白质序列数据的要求。因此,我们亟需探索理论计算方法来研究蛋白质序列、结构及功能之间的关系。蛋白质结构类型不仅能够集中反映蛋白质高级结构中基本原件的分布情况,还可以反映蛋白质的高级结构与功能,因此,蛋白质结构类的研究是蛋白质高级结构与功能研究的基础,对蛋白质组学研究具有重要意义。本文以蛋白质结构类预测方法为研究对象,主要研究内容如下:
  首先,本文详细地综述了包含成分信息、物化信息和结构信息的特征提取方法,并对SVM、神经网络和K-NN三类常用的机器学习算法进行详细介绍。特征提取和分类算法是蛋白质结构类预测算法的两个重要环节。上述综述本文的研究提供了理论基础和应用前提。
  其次,本文基于替换矩阵和排名算法,将20种氨基酸聚类成9个无重叠子集,实现氨基酸的约化处理,减少计算复杂度;根据氨基酸分布的随机性,定义位置分布函数,分析其概率分布,通过计算其数值特征描述约化氨基酸的位置分布信息;结合11种蛋白质二级结构序列特征,本文提出了一种基于生物序列与结构特征的蛋白质结构类预测算法。本文选取了4个标准数据集进行实验,结果发现本文方法可较好地预测不同蛋白质结构类别,其整体准确率可达84.6%-95.7%,比目前最优方法高出1.4%-6.1%。通过定量分析发现,位置特征的表现优于序列信息,但二者又是彼此互补,因此,融合两类信息是提高蛋白质结构类型预测准确率的一种有效方法。
  最后,本文基于PSI-BLAST profile,获取包含进行信息PSSM矩阵,设计最大信息保留算法,约化PSSM矩阵,并通过自协方差变换提取蛋白质进化信息;结合二级结构位置分布特征,我们提出了一种基于简化PSSM与结构位置信息的蛋白质结构类预测方法。本文以准确率为评价指标,系统地比较了不同约化类和位置间隔个数对预测模型的影响。结果表明,预测准确度随着约化类增加而增加,但它却随着间隔位置的增加而降低;通过优化发现,基于约化类13和间隔2个位置的简化PSSM预测性能表现最佳,这也与螺旋和折叠构象的平均间隔理论保持一致。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号