首页> 中文学位 >基于离散增量法和神经网络的蛋白质亚细胞定位预测
【6h】

基于离散增量法和神经网络的蛋白质亚细胞定位预测

代理获取

目录

声明

摘要

第一章 绪论

1.1 引言

1.2 研究背景及意义

1.3 国内外研究现状

1.4 论文的主要内容和结构安排

1.4.1 主要研究内容

1.4.2 论文结构安排

第二章 蛋白质亚细胞定位预测

2.1 蛋白质亚细胞定位的生物学基础

2.1.1 蛋白质概述

2.1.2 亚细胞定位概述

2.1.3 生命中心法则

2.2 蛋白质特征提取方法

2.2.1 基于氨基酸组成和位置的编码

2.2.2 基于氨基酸物理化学性质特征的编码

2.2.3 基于数据库信息挖掘的编码

2.3 应用于亚细胞定位领域的机器学习算法

2.3.1 隐马尔可夫模型

2.3.2 贝叶斯网络

2.3.3 K近邻方法(K-Nearest Neighbor,KNN)

2.3.4 支持向量机(Support vector machine,SVM)

2.3.5 柔性神经树(Flexible neural tree,FNT)

2.3.6 多分类器的组合

2.3.7 预测性能评估

2.4 小结

第三章 基于离散增量法和神经网络的蛋白质亚细胞定位预测

3.1 数据集

3.2 以多样性增量为参数的特征提取算法

3.2.1 离散增量法

3.2.2 氨基酸频率信息的多样性增量

3.2.3 氨基酸理化信息的多样性增量

3.3 分类器的设计

3.3.1 人工神经网络

3.3.2 粒子群优化算法

3.3.3 纠错输出编码

3.4 小结

第四章 实验结果及分析

4.1 实验一

4.1.1 特征提取结果

4.1.2 分类器模型

4.1.3 实验结果

4.2 实验二

4.2.1 特征提取结果

4.2.2 分类器模型

4.2.3 实验结果

4.3 实验三

4.3.1 特征提取结果

4.3.2 分类器模型

4.3.3 实验结果

4.4 实验四

4.4.1 特征提取结果

4.4.2 分类器模型

4.4.3 实验结果

4.5 实验五

4.5.1 特征提取结果

4.5.2 分类器模型

4.5.3 实验结果

4.6 实验六

4.6.1 特征提取结果

4.6.2 分类器模型

4.6.3 实验结果

4.7 实验七

4.7.1 特征提取结果

4.7.2 分类器模型

4.7.3 实验结果

4.8 小结

第五章 结束语

5.1 全文总结

5.2 进一步研究设想

5.3 心得体会

参考文献

致谢

附录

展开▼

摘要

随着后基因组时代的到来,生命科学的研究内容呈高速发展态势,生物信息数据迅速增长。由于生物数据具有大规模性和复杂性的特征,因此,探索如何高效处理海量生物数据的生物信息学学科就应运而生。生物学功能取决于蛋白质所处的亚细胞位置,同时,蛋白质发挥功能的必要条件是该蛋白质要处于特定的亚细胞位置。如果蛋白质的运送位置发生了偏差,那么将会对细胞功能乃至生物体产生重大影响。此外,明确蛋白质的亚细胞定位能获取蛋白质的功能和结构信息,也可以使人们了解疾病的发生机理,有利于生物制药和细胞医疗领域的深入发展。因此,蛋白质亚细胞定位预测成为了后基因组时代生物信息学的主要研究内容之一。
  生物学观点认为,蛋白质序列决定结构,结构决定功能。蛋白质亚细胞定位预测的生物信息学方法主要是通过智能算法和最初的氨基酸序列来预测蛋白质具体的亚细胞位置。蛋白质亚细胞定位预测的生物信息学方法一般包括四个步骤:第一,建立一个客观有效的数据集;第二,选择合适的特征提取方法对蛋白质序列进行编码;第三,利用智能算法构建行之有效的分类器,应用分类器对蛋白质序列进行亚细胞定位;第四,根据预测结果对分类器算法进行评估。
  本文系统的介绍了蛋白质特征提取方法、蛋白质亚细胞定位的智能算法、离散增量法和神经网络等基本理论,在总结前人的研究基础上,提出了使用离散增量法结合神经网络进行蛋白质亚细胞定位预测的方法。研究的重点是,将离散增量法和神经网络进行有效结合以及能够使蛋白质序列获得较高的预测精度的特征提取方法。
  进行蛋白质亚细胞定位,首先必须通过特征提取方法使蛋白质序列成为计算机能够识别的数字信息。特征提取方法对亚细胞定位预测正确率至关重要,常用的特征提取方法有氨基酸组成模型(AAC)、二肽组成模型(Dipeptide)、水合组成模型(AAHC)、伪氨基酸组成模型(PseAA)、理化组成模型(PCC)、分组重量编码(EBGW)、N端信号编码(NTS)等。本文研究时,将离散增量法这种分类器方法转化成特征提取方法,将常用特征提取方法提取后的蛋白质序列输入到离散增量分类器中,将得到的多样性增量作为蛋白质的特征。同时,将各种常用特征提取后得到的多样性增量特征进行了融合。结果显示,有效的融合多特征会比单使用一种特征编码方式效果更好。其中,N端信号编码对亚细胞定位预测效果的提高起到了很大的作用。
  常用的二分类器方法有K近邻方法(KNN)、贝叶斯网络、人工神经网络(ANN)、柔性神经树(FNT)等。但蛋白质亚细胞定位预测是典型的多类分类问题,用上面提到的几种分类器进行多分类,预测结果并不理想。因此,处理多分类问题就需要转化成多个二分类问题来解决,然后利用常用二分类器来预测。本文在进行SNL6数据集的亚细胞定位预测时,通过纠错输出编码模型(ECOC)转化成二分类问题来解决,基分类器采用了人工神经网络,网络系数的优化算法采用了粒子群优化算法(PSO),取得了较好的预测效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号