首页> 中文学位 >蛋白质相互作用网络中关键蛋白质预测算法及其应用研究
【6h】

蛋白质相互作用网络中关键蛋白质预测算法及其应用研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 网络节点拓扑中心性关键蛋白质预测算法

1.2.2 多信息源融合的关键蛋白质预测算法

1.2.3 基于蛋白质属性集合的机器学习关键蛋白质预测算法

1.2.4 基于图论的蛋白质复合物预测方法

1.2.5 基于非图论的蛋白质复合物预测方法

1.3 主要研究工作

1.4 论文组织结构

第2章 蛋白质相互作用网络相关概述

2.1 蛋白质相互作用网络简介

2.2 节点中心性简介

2.3 网络聚类简介

2.4 评估方法介绍

2.4.1 关键蛋白质预测评估方法

2.4.2 蛋白质复合物预测评估方法

2.5 小结

第3章 基于局部互作密度中心性的关键蛋白质预测算法

3.1 引言

3.2 本章相关工作

3.3 基于局部互作密度中心性的关键蛋白质预测算法设计

3.3.1 局部互作密度中心性

3.3.2 算法时间复杂度分析

3.4 经典网络拓扑中心性度量方法

3.5 实验分析和讨论

3.5.1 实验数据集

3.5.2 评估区间

3.5.3 算法LID与已有网络拓扑中心性方法的比较

3.5.4 评估指标分析算法LID的性能

3.5.5 基于roc曲线下面积评估算法LID的性能

3.5.6 算法LID和已有网络拓扑中心性方法预测结果差异性分析

3.6 小结

第4章 基于融合新机制的多信息关键蛋白质预测算法

4.1 引言

4.2 本章相关工作

4.3 基于融合新机制的多信息关键蛋白质预测算法设计

4.3.1 基于融合新机制的多信息关键蛋白质预测算法LIDC

4.3.2 算法时间复杂度分析

4.4 对比实验中参照算法介绍

4.5 实验分析与讨论

4.5.1 实验数据集

4.5.2 评估区间

4.5.3 算法LIDC与已有预测算法的比较

4.5.4 基于Jackknife评估方法验证算法LIDC性能

4.5.5 基于precision-recall曲线和六种评估方法的预测性能分析

4.5.6 基于roc曲线和AUC的预测性能评估分析

4.5.7 融合新机制对预测性能影响的分析

4.5.8 算法LIDC与已有预测算法在预测结果上的差异分析

4.5.9 算法LIDC预测结果的模块性分析

4.5.10 基于大肠杆菌蛋白质相互作用网络分析算法LIDC的性能

4.6 小结

第5章 基于广义局部互作密度的关键蛋白质预测算法

5.1 引言

5.2 本章相关工作

5.3 基于广义局部互作密度关键蛋白质预测算法设计

5.3.1 网络节点广义局部互作密度中心性度量

5.3.2 基于广义局部互作密度关键蛋白质预测算法G-LID

5.3.3 基于广义局部互作密度的关键蛋白质预测算法时间复杂度分析

5.4 对比实验中参照算法介绍

5.5 实验分析与讨论

5.5.1 实验数据集

5.5.2 算法G-LID中参数α和β的取值范围估算

5.5.3 预测算法中参数LIDH的预测分析

5.5.4 算法G-LID与已有拓扑中心性预测结果对比分析

5.5.5 算法G-LID的参数取值α和β对预测性能影响的讨论

5.5.6 指标LIDH对算法G-LID预测性能影响的分析

5.6 小结

第6章 基于网络节点局部互作密度的蛋白质复合物预测算法

6.1 引言

6.2 本章相关工作

6.3 基于网络节点局部互作密度的蛋白质复合物预测算法设计

6.3.1 基于网络节点局部互作密度的蛋白质复合物预测算法CBLID

6.3.2 算法时间复杂度分析

6.4 对比实验中参照算法介绍

6.5 实验分析与讨论

6.5.1 实验数据集

6.5.2 算法CBLID与已有预测算法的预测结果对比分析

6.5.3 算法CBLID与已有预测算法在功能富集性上的对比分析

6.5.4 算法CBLID参数K的选择分析

6.6 小结

结论

参考文献

致谢

附录A 攻读学位期间所发表的学术论文

附录B 攻读学位期间所参加的科研项目

展开▼

摘要

蛋白质是生物体的基本构件。深刻阐明蛋白质的结构与功能,是探索生命奥秘的核心任务。有研究发现蛋白质对于生物体存活的重要性存在差别,由此可以将蛋白质划分为关键蛋白质和非关键蛋白质。随着测定蛋白质间相互关系的高通量生物实验技术快速发展,使得可用的相互作用数据海量涌现。据此构建蛋白质相互作用网络并在其上开展相关的关键蛋白质预测等研究以促进生物学医学等基础学科深入发展成为当前相关领域的研究热点。另一方面,结构决定功能是分子生物学上的一条经验法则,对关键蛋白质的研究也有助于更进一步加深对蛋白质在生物体内功能的理解。
  为此,在蛋白质相互作用网络上对关键蛋白质的预测算法开展研究,主要从网络节点拓扑中心性,蛋白质多信息融合机制以及算法自适应机制等多个角度开展关键蛋白质预测算法的相关研究。同时结合对关键蛋白质预测算法的研究成果,对其在蛋白质复合物预测中的应用也进行了研究。全文主要工作概括如下:
  (1)在蛋白质相互作用网络上基于网络节点拓扑中心性预测算法是一类重要的预测方法,现有中心性预测算法的设计思路多集中在蛋白质相互作用数据集上挖掘关键蛋白质的特征,忽略了关键蛋白质与真实蛋白质复合物在结构上的关联,这或许是现有算法预测性能不佳的原因之一。鉴于以上考虑,系统分析了真实蛋白质复合物中节点的拓扑特征与复合物包含关键蛋白质数目的关联,提出了一种基于网络节点局部互作密度的关键蛋白质预测新算法LID。该算法在相关数据集上与现有经典网络拓扑中心性预测算法相比较,具有更好的预测结果。
  (2)从已有研究成果来看,利用蛋白质网络拓扑单一特征设计预测算法,从而获得较好的关键蛋白质预测性能仍旧十分困难。因此基于蛋白质多信息融合预测关键蛋白质是相关研究可选的途径。目前多信息融合预测关键蛋白质算法的融合机制通常需要人工手动设定经验参数值,这需要大量的实验来获取,且参数值一旦设定一般不能轻易改变,从而增加了相关预测算法对特定相互作用数据集的依赖性。为此提出了一种多信息融合的新机制,并在此基础上融合网络节点局部互作密度LID与真实蛋白质复合物节点内度两类蛋白质生物信息,构建了一种多信息融合关键蛋白质预测新算法LIDC。该算法的融合机制不需要人工经验参数,降低了算法对特定数据集的依赖性。与现有经典多信息融合预测算法以及提出的新算法LID进行实验对比中,在多个评估指标下,取得了较好的预测结果,从而为蛋白质多信息融合机制研究提供了途径。
  (3)现有网络节点拓扑中心性关键蛋白质预测算法缺乏自我调节的部分。设计合理的调节机制,可以使得原有的网络拓扑中心性预测算法拥有合理的自适应性,以应对蕴含不同网络结构的蛋白质相互作用数据集上的预测任务。由此通过研究发现存在网络节点拓扑特征,即是局部互作密度非均衡性指标LIDH,与蛋白质网络结构间差异存在某种关联,使之可以用来引导相关预测算法的自行调整。在构建蛋白质相互作用数据集上的先验网络集合基础上,提出了以基于网络节点局部互作密度预测算法LID的拓展形式,网络节点广义局部互作密度为核心的关键蛋白质预测新算法G-LID,该算法不依赖人工经验参数,具有恰当的自适应功能。同时该算法虽然使用到了先验知识,但相关信息仍旧来自蛋白质相互作用数据集,并未增加蛋白质生物信息种类和算法的数据依赖性。在与现有经典网络节点拓扑中心性预测算法以及提出的新算法LID在以往预测性能下降较快的数据集上进行对比实验中,该算法取得了较好的预测性能提升效果,为基于网络节点拓扑中心性关键蛋白质预测算法相关研究提供网络结构自适应机制。
  (4)生物体内的蛋白质要执行相应生物功能的一般形式是多个蛋白质协同合作,共同完成。而蛋白质复合物正是蛋白质间这种协作的客观体现。因此在蛋白质相互作用网络中识别蛋白质复合物研究对于理解生物体复杂工作机制具有重要作用。已发表的蛋白质复合物预测算法大多基于聚类思想来实现在网络中蛋白质复合物的发现,其聚类机制多侧重于数学意义上的节点划分,且时间复杂度偏高。另一方面,现有生物实验已经发现真实蛋白质复合物内部还存在更微观的结构,其内部的蛋白质还可以划分为核心成员和附属成员等。受此启发,考虑在蛋白质相互作用网络中对关键蛋白质预测算法研究成果的推广应用,提出了基于网络节点局部互作密度的蛋白质复合物预测新算法CBLID。该算法首先利用网络节点的局部互作密度LID分值生成聚类种子集合;随后将种子的互作邻接点分配到对应聚类中完成聚类;最后清除重复的聚类,得到当前网络的蛋白质复合物候选集。算法CBLID相比较于现有经典蛋白质复合物预测算法具有更小的时间复杂度,且在选取多个蛋白质相互作用网络上,与已有算法的对比实验中,在多个评估指标下,该算法取得了较好的预测结果,从而为蛋白质复合物预测研究提供了思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号