首页> 中文学位 >基于序列编码的蛋白质分类问题研究
【6h】

基于序列编码的蛋白质分类问题研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 引言

1.2 研究背景及意义

1.2.1 关于结构型的分类预测

1.2.2 关于亚细胞定位的分类预测

1.3 国内外研究现状

1.3.1 基于结构型分类预测的研究现状

1.3.2 基于亚细胞定位分类预测的研究现状

1.4 论文研究内容与结构安排

1.4.1 主要研究内容

1.4.2 论文结构安排

第2章 蛋白质分类问题的一般研究方法

2.1 蛋白质相关基础知识介绍

2.1.1 蛋白质的组成结构

2.1.2 亚细胞结构及其功能

2.2 数据集的构建

2.3 基于序列编码的特征提取方法

2.3.1 基于氨基酸组成及位置的方法

2.3.2 基于氨基酸物理化学特性的特征提取算法

2.3.3 其它序列特征提取算法

2.4 蛋白质分类算法

2.4.1 基于统计的分类预测方法

2.4.2 基于机器学习的分类预测方法

2.5 预测性能的评估

2.6 小结

第3章 基于序列信息及二级结构特征的蛋白质结构类预测方法

3.1 引言

3.2 蛋白质序列特征信息的提取

3.3 二级结构特征信息抽取

3.4 实验与分析

3.4.1 数据集构建及数据归一化

3.4.2 预测结果的比较与分析

3.4.3 特征参数的选取对预测结果的影响

3.5 小结

第4章 基于多特征融合的蛋白质亚细胞定位预测方法

4.1 引言

4.2 蛋白质序列编码

4.2.1 广义混沌游戏表示

4.2.2 序列统计信息抽取

4.3 实验与分析

4.3.1 数据集的构建

4.3.2 一致距离(Unitary Distance)

4.3.3 统计分类预测效果

4.3.4 机器学习分类预测效果

4.4 小结

结论

参考文献

附录A 攻读学位期间所发表的学术论文及所参加项目

致谢

展开▼

摘要

蛋白质分类问题作为蛋白质组学研究中的一个重要分支,近些年已吸引了越来越多研究者的关注。对蛋白质相关分类问题的研究是全面掌握蛋白质结构及功能的前提与基础,也在细胞生物学、分子生物学、医学和药理学中有着极其重要的角色扮演。
   一般情况下,蛋白质的分类问题研究均可以分为如下三个步骤:构建合理的数据集、设计有效的序列编码方案以及采取高性能的分类算法。本文围绕蛋白质分类问题预测这一主题,主要针对蛋白质序列的编码方法及分类预测算法两方面进行了深入研究,主要工作包括:
   1.针对蛋白质结构型分类预测问题,基于序列信息及二级结构特征提出了一种新的蛋白质序列编码方法。结合支持向量机分类算法,构建了一种全新的、比较实用的蛋白质结构型分类模型。该预测模型不需要引入任何其它信息,具有计算简单、快速的优点,针对四个标准数据集的刀切法检验都获得了较高的总体分类精度。另外,在经过对分类模型参数选择问题的讨论及一系列对比实验验证之后,结果表明,本文构建的分类预测模型具有较强的自适应、泛化和推广应用能力。
   2.针对蛋白质亚细胞定位分类预测问题,本文主要对蛋白质序列的编码问题及预测模型展开了研究。首先,文章提出了从不同视角对蛋白质序列进行编码的方案,其中引入了用于序列可视化的混沌游戏表示方法及新的序列统计信息的抽取方法;其次,本文选择在复空间对两部分特征向量进行并行融合,然后将该向量作为一致性距离统计分类的输入,并在两个标准数据集上验证所构建预测模型的可行性与效用性,接着将本文方法与已有工作进行比较,实验结果表明,预测模型从序列编码到分类预测等环节都采取了较为合理的处理方式,因此构建出的整个预测模型是合理且有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号