首页> 中文学位 >基于机器学习的蛋白质类别及蛋白质-配体相互作用预测研究
【6h】

基于机器学习的蛋白质类别及蛋白质-配体相互作用预测研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.3 基于机器学习的蛋白质功能预测

1.3.1 数据集的构建

1.3.2 特征提取

1.3.3 特征选择

1.3.4 预测算法

1.3.5 模型检验与评价

1.4 主要研究内容

1.5 论文组织结构

第二章 基于Stacking方法的噬菌体病毒蛋白预测

2.1 引言

2.2 数据与方法

2.2.1 数据集

2.2.2 氨基酸组成、转换和分布

2.2.3 Bi-profile Bayes

2.2.4 伪氨基酸组成

2.2.5 位置特异性打分矩阵

2.2.6 特征选择

2.2.7 集成学习方法

2.3 结果与讨论

2.3.1 单一特征空间的预测性能

2.3.2 特征选择结果

2.3.3 集成学习方法的预测性能分析

2.3.4 特征选择对Stacking方法预测性能的影响

2.3.5 与现有方法的预测性能比较

2.4 本章小结

第三章 基于分类器选择策略的抗氧蛋白预测

3.1 引言

3.2 数据与方法

3.2.1 数据集

3.2.2 二级结构信息

3.2.3 位置特异性打分矩阵

3.2.4 相对可溶性

3.2.5 氨基酸组成、转换和分布

3.2.6 特征选择

3.2.7 分类器选择策略

3.3 结果与讨论

3.3.1 基分类器的预测性能比较

3.3.2 集成分类器的预测性能比较

3.3.3 集成分类器与基分类器的预测性能比较

3.3.4 特征选择结果

3.3.5 特征选择对集成分类器预测性能的影响

3.3.6 最优特征分析

3.3.7 与现有方法的预测性能比较

3.3.8 网络服务器

3.4 本章小结

第四章 基于分类器融合策略的抗血管生成肽预测

4.1 引言

4.2.1 数据集

4.2.2 Bi-profile Bayes

4.2.3 氨基酸组成、转换和分布

4.2.4 离散傅里叶交换

4.2.5 分类器融合策略

4.3 结果与讨论

4.3.1 不同特征空间的基分类器预测性能分析

4.3.2 不同特征空间的集成分类器预测性能分析

4.3.3 特征选择结果

4.3.4 与现有方法的预测性能比较

4.4 本章小结

第五章 基于欠采样方法的J蛋白类型预测

5.1 引言

5.2.1 数据集

5.2.2 分段氨基酸组成

5.2.3 伪氨基酸组成

5.2.4 位置特异性打分矩阵

5.2.5 特征选择

5.2.6 集成学习方法

5.2.7 性能评估

5.3 结果与讨论

5.3.1 单一特征空间的最优参数

5.3.2 不同特征空间的预测性能分析

5.3.3 集成分类器和基分类器的预测性能比较

5.3.4 特征选择结果

5.3.5 特征选择对集成分类器预测性能的影响

5.3.6 最优特征分析

5.3.7 与现有方法的预测性能比较

5.4 本章小结

第六章 基于少数类过采样算法的芋螺毒素离子通道类型预测

6.1 引言

6.2.1 数据集

6.2.2 氨基酸组成、转换和分布

6.2.3 g间隔二肽组成

6.2.4 理化属性

6.2.5 二级结构信息

6.2.6 少数类过采样算法

6.3 结果与讨论

6.3.1 单一特征空间的最优参数

6.3.2 单一特征空间的预测性能分析

6.3.3 组合特征空间的预测性能分析

6.3.4 特征选择结果

6.3.5 最优特征分析

6.3.6 在训练集上与现有方法的预测性能比较

6.3.7 在独立测试集上与现有方法的预测性能比较

6.4 本章小结

第七章 基于多源特征提取和集成学习的蛋白质-适配体相互作用预测

7.1 引言

7.2.1 数据集

7.2.2 伪K元组核苷酸组成

7.2.3 离散余弦变换

7.2.4 二元位置特异性打分矩阵

7.2.5 无序区域信息

7.2.6 集成学习方法

7.2.7 性能评估

7.3 结果与讨论

7.3.1 不同特征空间的预测性能分析

7.3.2 集成学习方法的有效性

7.3.3 特征选择结果

7.3.4 最优特征分析

7.3.5 与现有方法的预测性能比较

7.3.6 实例分析

7.4 本章小结

第八章 总结与展望

8.1 总结

8.2 展望

参考文献

致谢

攻读博士学位期间发表的论文

攻读博士学位期间参与的科研项目

展开▼

摘要

在后基因组时代,生物信息技术迅速发展,生命科学的研究重心从破译基因组序列转移到基因功能注释。依据分子生物学中心法则,携带遗传信息的基因翻译成蛋白质才能在生物体内执行多种多样的生理功能。随着高通量测序技术的日臻成熟,被测定的蛋白质序列数目呈指数增长,与此相比,被测定功能的蛋白质数目的增长速度相对滞后。已知序列的蛋白质数目和已知功能的蛋白质数目之间的差距不断扩大,蛋白质功能预测成为重要且极具挑战性的研究课题,其不仅有助于探索生命起源和遗传变异,而且有助于从细胞和分子水平上探讨人类重大疾病的发病机制,为疾病的诊断、预防和药物开发等提供重要的理论支持。通过实验方法进行蛋白质功能注释,成本昂贵、耗时耗力且无法大规模开展。因此,亟需开发可靠、经济和高通量的计算方法,快速精确地预测蛋白质功能。蛋白质类别预测和蛋白质-配体相互作用预测是蛋白质功能预测的两大重要研究分支。基于机器学习,本学位论文对蛋白质类别预测和蛋白质-配体相互作用预测进行了深入研究,具体内容如下:
  (1)蛋白质类别预测中的二分类问题
  噬菌体病毒蛋白和非病毒蛋白具有不同的生物学功能。从噬菌体蛋白中准确地识别病毒蛋白有助于理解复杂的病毒机制和开发抗细菌药物。现有的计算方法未全方位的提取蛋白质序列特征,且利用单一的分类器构建预测模型。基于Stacking方法,提出了新的噬菌体病毒蛋白预测方法。该方法从蛋白质序列中提取氨基酸的组成、位置、顺序、分布、理化属性和进化等信息。基于不同的特征提取策略,分别构建不同的随机森林预测模型,并利用逻辑回归算法整合随机森林预测模型的预测结果。在独立测试集上,该方法的预测性能优于现有方法,是预测噬菌体病毒蛋白的有效工具。
  在生物体内,抗氧蛋白在维持氧化/抗氧化的平衡过程中发挥着重要作用,且对于疾病的治疗具有潜在的价值。准确地预测抗氧蛋白为揭示氧化/抗氧化平衡的生理机制和开发抗氧化药物提供理论依据。针对现有方法的局限性,通过多源特征提取和分类器选择策略,构建了预测抗氧蛋白的集成学习方法。为进一步提高预测性能,该方法利用Relief-增量特征选择剔除冗余和不相关的特征。在独立测试集上,该方法取得了较为均衡的敏感性和特异性,远远优于现有方法。
  抗血管生成肽对于血管生成具有抑制作用,有助于治疗与血管生成相关的疾病。准确地预测抗血管生成肽能够为理解血管的生成机制和发展抗肿瘤疗法提供重要线索。现有方法通过单分类器建立预测模型,并未利用特征选择技术获取具有高度识别能力的特征。通过分别选取具有高敏感性以及高特异性的基分类器模型,构建了预测抗血管生成肽的集成分类器模型。为降低计算复杂度和提高预测能力,利用特征选择技术获取与分类目标更相关的特征。与现有方法在相同的基准数据集上的预测性能比较结果表明,该集成分类器是预测抗血管生成肽的有效方法。
  (2)蛋白质类别预测中的多分类问题
  不同类型J蛋白在疾病发展中发挥着不同功能。准确地识别J蛋白的类型将、为阐明不同类型J蛋白在相关生物学过程中的功能提供线索,并有助于理解疾病的发作机制。现有方法采用的特征编码方式单一,尚未解决类不平衡问题。基于欠采样方法,借鉴集成学习思想,构建了J蛋白类型预测模型。该预测模型有效地解决了类不平衡问题。与现有方法相比,该集成分类器模型的敏感性和特异性更均衡。
  在生物体内,不同离子通道的芋螺毒素所发挥的生理功能和对疾病的治疗潜力有较大差异。准确地预测芋螺毒素离子通道类型有助于破译芋螺毒素的生理机制和药理学特性。现有方法从蛋白质序列中只提取了氨基酸的组成信息,并未解决类不平衡问题。通过提取蛋白质序列中的氨基酸组成、分布、顺序、理化属性和二级结构信息,利用少数类过采样算法增加少数类样本的数目,建立了新的芋螺毒素离子通道类型预测模型。在独立测试集上,该预测模型对不同类型芋螺毒素的预测精度都高于现有方法,验证了其强大预测能力。
  (3)蛋白质-配体相互作用预测
  蛋白质-适配体相互作用在生物体内发挥着各种生理功能,并具有潜在的疾病治疗价值。快速有效地预测蛋白质-适配体相互作用有助于深刻理解蛋白质-适配体相互作用的作用机制和开发基于适配体的疗法。现有方法采用单分类器构建预测模型,仅从序列中提取了氨基酸组成信息,并未处理类不平衡问题。为此,基于多源特征提取策略,利用集成学习方法构建蛋白质-适配体相互作用预测模型。在训练集上的10交叉验证结果表明,该方法的敏感性和特异性较为均衡,有效地解决了数据不平衡问题。为客观地评价该方法的预测能力,与现有方法在独立测试集上进行了性能比较。实验结果显示,该方法的敏感性和Youden指数均优于现有方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号