首页> 中文学位 >基于支持向量回归集成的蛋白质-ATP绑定位点预测研究
【6h】

基于支持向量回归集成的蛋白质-ATP绑定位点预测研究

代理获取

目录

声明

摘要

1 绪论

1.1 引言

1.2 研究背景

1.2.1 研究意义

1.2.2 研究现状

1.3 论文研究主要内容

1.4 论文结构安排

2 蛋白质数据处理概述

2.1 引言

2.2 蛋白质简介

2.2.1 数据来源

2.3 蛋白质的结构层次

2.4 蛋白质序列分析

2.4.1 位置特异性得分矩阵

2.5 蛋白质二级结构分析

2.5.1 蛋白质二级结构特征

2.6 提取特征向量

2.7 本章小结

3 基于支持向量回归集成的蛋白质-ATP绑定位点预测模型

3.1 引言

3.2 预测模型建立

3.2.1 支持向量机

3.2.2 支持向量回归

3.2.3 朴素贝叶斯

3.2.4 KNN

3.2.5 随机森林

3.3 不平衡处理

3.3.1 随机下采样

3.4 集成方法

3.4.1 最大集成法

3.4.2 最小集成法

3.4.3 平均集成法

3.4.4 加权集成法

3.5 本章小结

4 蛋白质-ATP绑定位点预测与实验

4.1 引言

4.2 性能评估

4.2.1 蛋白质绑定位点检测的评价标准

4.2.2 基于蛋白质水平的k-重交叉验证

4.3 实验结果与分析讨论

4.3.1 特征提取比较实验

4.3.2 最优特征向量选取实验

4.3.3 预测模型比较实验

4.3.4 随机下采样实验

4.3.5 集成实验比较

4.4 本章小结

5 总结与展望

5.1 研究工作总结

5.2 未来的工作与展望

致谢

参考文献

攻读硕士期间发表的论文情况

展开▼

摘要

蛋白质(protein)作为生命现象的物质基础之一,是生命活动过程中的重要承担者,在生物体的生命过程中具有重要的作用。生物信息学的研究对于人们加深对人类生命过程的认知,帮助人们改善医疗环境和提高生活质量有着重要的意义,受到了国内外学者的广泛重视。随着上世纪90年代“人类基因组计划”(Human Genome Project,HGP)工作的展开,已知蛋白质序列的数量呈爆炸性增长,标志着人类已经跨入到后基因组时代。
  蛋白质的基本组成单位是氨基酸,蛋白质分子由氨基酸序列形成的一条长长的肽链,并在空间盘绕折叠进而形成特定的立体结构,不同的氨基酸序列决定了蛋白质结构的多样性。我们知道,蛋白质结构决定蛋白质功能,而蛋白质的生物功能体现在它和各种配体如三磷酸腺苷、维生素、金属离子、药物分子等以某种生物化学方式结合(称之为绑定),在生物体的生命过程中发挥相应的作用。三磷酸腺苷(Adenosine5'-triphosphate,ATP)作为一种蛋白质配体,在分子细胞生物学中扮演着一个重要的角色,如膜运输、细胞活性、肌肉收缩、信号、复制和转录DNA、以及各种代谢过程。蛋白质与ATP的绑定作用发生位点与蛋白质的结构有着密切的关系。
  随着蛋白质测序技术的飞速发展,已经积累了大量的蛋白质序列数据未标定,传统的生物学实验方法往往遇到实验密集、昂贵、耗时等问题。目前,从已知的蛋白质序列来预测蛋白质与配体的绑定关系是一项重要的工作。本文中,将蛋白质序列的ATP绑定位点与非绑定位点进行分类是个不平衡的二分类问题,其中绑定位点是样本数目稀少的正类样本,非绑定位点是样本数目众多的负类样本。根据机器学习关于可以将分类问题作为回归问题的特例的观点出发,并根据所研究问题本身的特点,我们提出了一种基于支持向量回归分类器集成的蛋白质-ATP绑定位点预测方法。首先,使用滑动窗口抽取蛋白质序列中每个残基的特征,得到一批不平衡的两类样本;其次,应用随机下采样策略,消除正负样本存在的显著不平衡;最后,我们设计了一个基于支持向量回归集成的预测模型,并选取合适的阈值进行蛋白质-ATP绑定位点的预测。本文研究的创新之处在于从机器学习关于回归和分类的关系出发,并根据所研究的生物信息学问题本身的特点,利用回归的方法实现分类的功能。在标准数据集上的实验结果以及与几种常用分类器和最新报道的预测方法的对比结果,验证了本文所述方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号