首页> 中文学位 >基于平衡分类算法的蛋白质二级结构预测
【6h】

基于平衡分类算法的蛋白质二级结构预测

代理获取

目录

声明

第1章 绪论

1.1 研究背景

1.2 蛋白质二级结构研究现状

1.3 论文主要工作

1.4 论文结构安排

第2章 人工神经网络

2.1 人工神经网络

2.2 双层BP神经网络结构

2.3 随机梯度法训练具体过程

2.4 激活函数的选择

2.5 输入编码的归一化

2.6 训练过程及参数

2.7 神经网络的输出

2.8 小结

第3章 PSIPRED方法及其平衡性改进

3.1 引言

3.2 蛋白质二级结构相关知识

3.3 蛋白质二级结构数据集

3.4 PSIPRED预测算法

3.5 PSIPRED算法的改进总结

第4章 蛋白质二级结构预测结果及分析

4.1 训练过程性能表现

4.2 结果评价方法

4.3 平行分类器的效果

4.4 各种改进算法的结果

4.5 蛋白质二级结构预测效果演示

4.6 小结

第5章 蛋白质结构类预测

5.1 蛋白质结构类相关背景知识

5.2 数据集的选择

5.3 神经网络配置

5.4 训练和测试

5.5 试验结果评估方法

5.6 结果和分析

5.7 小结

第6章 结论

参考文献

致谢

攻读学位期间的研究成果

展开▼

摘要

蛋白质在生命过程中起着非常关键的作用,是生命活动的物质承担者。而蛋白质的结构决定了其功能,因此通过蛋白质结构预测其在生命过程中的功能非常重要。蛋白质结构分为四个层次:一级结构是指蛋白质序列的氨基酸残基排列;二级结构是指蛋白质多肽链上的局部空间构象(螺旋helix、片层Stand和卷曲coil);三级结构蛋白质多肽链上所有原子的空间位置;而拥有多条多肽链的蛋白质还具有四级结构,也就是多条多肽链的相对位置。与蛋白质功能直接相关的是蛋白质的三级结构,然而本文很难直接获取蛋白质的三级结构信息,传统的物理化学检测方法耗时耗力,很难胜任,直接从蛋白质一级序列信息预测蛋白质三级结构又及其困难,因此蛋白质二级结构预测作为一级结构与三级结构的桥梁存在广泛的前景。不过由于蛋白质二级结构中片层结构含量普遍较低,加上传统机器学习分类器无法采集蛋白质一级结构中位点远端的相互作用,使得片层结构预测率不足,直接影响蛋白质二级结构预测的效果。本文改进已有的PSIPRED算法(一种基于人工神经网络的分类算法,以序列的位置特异性得分矩阵为样本输入),引入平衡的分类机制,使得算法预测更为平衡、有效,最后应用于蛋白质三级结构中蛋白质结构类的预测。
  本研究主要内容包括:⑴改变神经网络的输入编码,引入更多与远端相互作用相关的序列信息,例如残基分子量大小、等电点、亲水性等;采取平衡的抽样策略,在训练过程中对含量较低的结构重复抽样;在训练过程中采用加权的代价函数;对神经网络的输出进行加权评估以平衡分类器的输出。最终发现,采用对神经网络输结果进行加权的策略最为有效,本文在改进的CB513数据集上采用8折交叉验证得到的总体准确率为74.28%,相应的beta-sheet准确率为63.73,比原始方法高出2.34个百分点。⑵以已经预测的蛋白质二级结构的混沌游戏表示chaos games representation(CGR)作为蛋白质结构类预测(structural classes prediction)的输入特征交于神经网络进行蛋白质结构类的预测。最终在Astral40数据集上获得了71%的准确率,比直接用一级序列信息的CGR方法高出许多。采用的方法能够较为有效地预测蛋白质的结构类。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号