首页> 中文学位 >基于拓扑结构和复合物信息的关键蛋白质识别算法研究
【6h】

基于拓扑结构和复合物信息的关键蛋白质识别算法研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 本文的组织结构

第2章 关键蛋白质识别的相关算法概述

2.1 引言

2.2 蛋白质相互作用网络

2.2.1 常用的蛋白质相互作用网络数据库

2.2.2 蛋白质相互作用网络的拓扑特征

2.3 关键蛋白质识别的相关算法

2.3.1 六种经典的中心性方法

2.3.2 基于拓扑特性的识别方法

2.3.3 融合生物信息的识别方法

2.4 评价算法有效性的方法

2.5 小结

第3章 基于边聚集系数和复合物内度的关键蛋白质识别算法

3.1 引言

3.2 方法

3.2.1 边聚集系数

3.2.2 复合物中心性

3.2.3 CSC算法

3.3 实验数据

3.4 实验结果及分析

3.5 小结

第4章 基于图熵中心性的关键蛋白质识别算法

4.1 引言

4.2 方法

4.2.1 蛋白质网络中熵的概念

4.2.2 GO语义相似性

4.2.3 GEC算法

4.3 实验数据

4.4 实验结果及分析

4.5 小结

结论

参考文献

附录A 攻读学位期间发表的学术论文

附录B 攻读学位期间参加的科研项目

致谢

展开▼

摘要

关键蛋白质在生物体内具有重要的作用,失去这些蛋白质,生物体可能会丧失一些功能,甚至无法生存。关键蛋白质的识别不仅有助于理解细胞的运行机制,而且有助于生物进化机制的研究,能为疾病的诊治、药物设计等提供有价值的理论和方法。随着蛋白质相互作用数据的日益丰富,从蛋白质相互作用网络中识别关键蛋白质成为生物信息学的研究热点。
   本文基于网络的拓扑特征,分析了蛋白质顶点在整个蛋白质相互作用网络中的拓扑特性,并深入挖掘了蛋白质顶点的局部特征,在此基础上,提出了有效的关键蛋白质识别方法。
   现有的大部分关键蛋白质识别方法都是基于蛋白质顶点在整个网络中的拓扑特征来识别关键蛋白质的,而已有研究表明,蛋白质的关键性和蛋白质复合物具有一定的相关性。本文结合边聚集系数和蛋白质复合物信息,提出了一种新的关键蛋白质识别算法—CSC算法(Combining SoECC and Complex Centrality)。实验结果表明,CSC算法比其他方法识别的关键蛋白质数量多,识别准确率较高,CSC算法识别出的低度关键蛋白质也比其他方法识别的多。由此说明结合蛋白质顶点在网络中的整体特征和局部特征,来识别关键蛋白质是有意义的。
   针对不同的蛋白质在蛋白质复合物中具有不同的重要性,并且蛋白质相互作用网络存在较高的假阳性,提出了一种新的关键蛋白质识别算法—图熵中心性(Graph Entropy Centrality),简称GEC算法。图熵中心性算法通过计算每个蛋白质在复合物中的熵值和GO语义相似性值,来评价蛋白质在复合物中的重要性。实验结果表明,图熵中心性算法在三个蛋白质网络数据集上识别的关键蛋白质数量比其他四种方法多,不仅敏感性、特异性、准确率等六种统计指标的值比其他方法高,而且图熵中心性算法能够识别出更多的不同的关键蛋白质。尤其是GEC算法能够识别出更多的低度关键蛋白质。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号