首页> 中文学位 >利用序列信息预测蛋白质二级结构的深度学习模型研究
【6h】

利用序列信息预测蛋白质二级结构的深度学习模型研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状以及存在的问题

1.3 本文研究内容

1.4 本文章节组织

第2章 相关技术综述

2.1 蛋白质结构简介

2.2 蛋白质结构预测相关概念

2.3 蛋白质序列特征编码方法

2.4常用预测算法

2.5 深度学习模型

第3章 蛋白质二级结构预测模型总体框架

3.1 设计方案概述

3.2 实验数据与处理

3.3 蛋白质序列的向量化

3.4 蛋白质二级结构预测

3.5 本章小结

第4章 基于深度学习的蛋白质二级结构预测模型

4.1 基于深度学习的缘由

4.2 蛋白质序列编码

4.3 预测模型及算法

4.4 本章小结

第5章 实验结果及分析

5.1 实验环境

5.2 测试数据集和评价标准

5.3 实验结果及分析

第6章 总结与展望

参考文献

发表论文和科研情况说明

致谢

展开▼

摘要

蛋白质二级结构预测对于研究蛋白质结构和功能具有非常重要的作用。本文在分析以往的对于蛋白质二级结构预测的方法的基础上,认为蛋白质的二级结构在一定程度上受远程残基的影响,运用蛋白质序列的长程信息和蛋白质序列的进化信息,能有效提高二级结构预测的准确程度。同时,蛋白质序列,在本质上也是一些字符串序列,蛋白质序列学习也可以看作是一种特殊序列学习。由此提出了一种深度学习模型,用以预测蛋白质二级结构。本文的主要贡献如下: (1)首先对每个氨基酸序列建立词的分布表示模型,对比于未经训练的氨基酸的嵌入表示,整体效果提升了10%;接着将预先训练好的蛋白质序列用两个长短期记忆神经网络(一个正向,一个反向)进行训练获得一个定长的向量表示;最后将得到的向量表示作为输入,使用条件随机场分类器来预测蛋白质的二级结构。整个训练过程,通过反向传播来更新模型的参数。 (2)提出了一种只利用序列信息进行蛋白质二级结构预测的深度学习模型。该模型利用Word2Vec将氨基酸序列转换为向量,然后利用长短期记忆网络构造的深度神经网络,获得序列的定长特征表示。预测算法中所用到的特征均是通过“学习”自动获得,克服了传统机器学习中特征选择过程过多的人工干预。 (3)实验结果表明,对于 CullPDB测试蛋白,该深度学习模型可以分别获得73.9%的Q3精度和64.9%的Q8精度。在基准数据集CB513上获得的Q8预测精度达到63.5%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号