首页> 中文学位 >蛋白质与配体绑定位点预测的特征抽取及学习算法研究
【6h】

蛋白质与配体绑定位点预测的特征抽取及学习算法研究

代理获取

目录

声明

摘要

插图目录

表格目录

1绪论

1.1引言

1.2蛋白质与配体相互作用及绑定位点概述

1.2.1蛋白质及功能

1.2.2蛋白质与配体之间的分子识别

1.2.3蛋白质与配体相互作用

1.2.4蛋白质与配体的绑定位点

1.2.5绑定位点的配体特异性

1.3识别蛋白质与配体绑定位点的生物实验方法

1.4蛋白质相关数据库

1.5研究内容与创新点

1.6内容安排

2蛋白质与配体绑定位点预测中的生物计算方法

2.1引言

2.2基于计算方法的蛋白质与配体绑定位点预测

2.2.1基于结构的预测方法

2.2.2基于序列的预测方法

2.2.3基于结构与序列的混合预测方法

2.3支持向量机算法简介

2.4预测性能评价指标

2.5实验验证方法

2.6需要解决的主要问题

2.7本章小结

3基于类不平衡学习的预测方法

3.1引言

3.2特征表示

3.2.1位置特异性得分矩阵特征

3.2.2预测的蛋白质二级结构信息特征

3.2.3配体特异性绑定倾向性信息特征

3.3基于随机下采样的支持向量机分类器集成方法

3.4有监督的上采样方法

3.5实验与讨论

3.5.1实验数据

3.5.2参数配置

3.5.3基于随机下采样的支持向量机分类器集成方法中的集成策略比较

3.5.4有监督的上采样方法与己有的上采样方法的比较

3.5.5 TargetATP与已有预测方法的比较

3.5.6 TargetS与已有预测方法的比较

3.5.7 TargetSOS与已有预测方法的比较

3.5.8 TargetATP、TargteS与TargetSOS的比较

3.6本章小结

4基于特征学习的预测方法

4.1引言

4.2特征表示

4.2.1 TargetATPsite的特征表示

4.2.2 TargetVita的特征表示

4.2.3 TargetDNA的特征表示

4.3稀疏表示算法与TargetATPsite

4.3.1稀疏表示

4.3.2 TargetATPsite

4.4联合拉普拉斯特征权重学习算法与TargetVita

4.4.1联合拉普拉斯特征权重学习算法

4.4.2 TargetVita

4.5中心化线性核目标对齐算法与TargetDNA

4.5.1中心化线性核目标对齐算法

4.5.2 TargetDNA

4.6实验与讨论

4.6.1实验数据

4.6.2稀疏表示的有效性验证

4.6.3联合拉普拉斯特征权重学习算法与已有特征选择算法的比较

4.6.4中心化线性核目标对齐算法有效性验证

4.6.5 TargetATPsite与已有预测方法的比较

4.6.6 TargetVita与已有预测方法的比较

4.6.7 TargetDNA与已有预测方法的比较

4.7本章小结

5基于查询驱动模型的预测方法

5.1引言

5.2 OSML预测方法

5.3 TargetNUCs预测方法

5.4 TargetLBS预测方法

5.5实验与讨论

5.5.1实验数据

5.5.2 OSML与静态预测方法比较

5.5.3 OSML与已有预测方法的比较

5.5.4动态查询驱动样本调节算法参数的鲁棒性验证

5.5.5 TargetNUCs与已有预测方法的比较

5.5.6 TargetLBS与数据库更新年份的关系

5.5.7 TargetLBS与已有预测方法的比较

5.6本章小结

6总结与展望

6.1总结

6.2未来展望

致谢

参考文献

附录

展开▼

摘要

蛋白质与配体分子之间的相互作用在生命过程中普遍存在,且不可或缺。蛋白质与配体分子之间的相互作用是通过部分氨基酸残基与配体分子的相互作用来实现的,这些氨基酸残基被称为绑定位点。精确识别蛋白质与配体的绑定位点,对于理解蛋白质的功能、分析生物分子之间的相互关系和设计新药物等方面具有重要的指导意义。 通过生物实验方法来测定蛋白质与配体的绑定位点,存在高成本、周期长等问题。因此,研发一种简单有效的计算方法来预测蛋白质与配体绑定位点是迫在眉睫的。于是,蛋白质与配体绑定位点预测问题逐渐成为了生物信息学领域的研究热点之一。由于蛋白质与配体分子之间的相互作用是复杂多变的,蛋白质与配体之间的绑定位点的预测仍然是一个具有挑战性的研究问题,特别是直接从蛋白质序列进行绑定位点预测。 针对基于序列的蛋白质与配体绑定位点预测问题,本文中重点研究了机器学习方法在该预测问题中的应用。在总结已有预测方法的基础上,本文从机器学习角度提出了亟需解决的三个关键性科学问题:类不平衡学习问题、特征学习问题与如何利用海量呈现且持续增长的蛋白质数据的学习问题。针对这三个关键性科学问题,本文提出了不同的解决办法,并分别用于提升基于序列的蛋白质与配体绑定位点的预测性能。 本论文的主要工作可归纳如下: (1)提出了基于随机下采样的支持向量机集成方法与有监督的上采样方法,分别从下采样与上采样学习的角度出发,来解决蛋白质与配体绑定位点预测中存在的类不平衡学习问题。根据这两种采样方法,实现了三个不同功能的蛋白质配体绑定位点预测方法:TargetATP、TargetS和TargetSOS,且部署了对应的服务网站供学术交流与实际应用。在基准数据集上的实验结果检验了提出的方法在处理类不平衡学习问题上的有效性,也表明了提出的预测方法具有优秀的预测性能。 (2)提出了中心化线性核目标对齐的特征融合算法,用于融合从不同视角抽取的特征;尝试使用稀疏表示算法从蛋白质进化信息中抽取更具鉴别性的稀疏特征;还尝试将三种特征选择算法(联合拉普拉斯特征权重学习算法、基于Fisher得分特征选择算法和基于Laplacian得分的特征选择算法)进行融合,来从原始特征空间中学习更具鉴别性的特征信息,以期提升蛋白质与配体绑定位点的预测性能。通过使用不同的特征学习算法,文中实现了三个不同的蛋白质配体绑定位点预测方法:TargetATPsite、TargetVita和TargetDNA,且部署了对应的服务网站供学术交流与实际应用。 (3)提出了三种不同层次(序列同源性层次、样本相似性层次以及序列谱文件相似性层次)的查询驱动方式来动态地预测蛋白质与配体绑定位点,以期解决蛋白质大数据时代下,传统的计算方法无法充分利用海量且不断增长的蛋白质数据的科学问题。文中的查询驱动是指对不同的待测对象,训练不同的模型进行预测。根据这三个不同层次的查询驱动方法,文中分别实现了三个不同的蛋白质与配体绑定位点预测方法:OSML、TargetNUCs与TargetLBS,且都部署了对应的服务网站以供学术交流与实际应用。

著录项

  • 作者

    胡俊;

  • 作者单位

    南京理工大学;

  • 授予单位 南京理工大学;
  • 学科 控制科学与工程
  • 授予学位 博士
  • 导师姓名 於东军;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    蛋白质; 配体; 绑定; 位点预测; 特征抽取; 学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号