首页> 中文学位 >基于蛋白质网络中复合体的识别方法研究
【6h】

基于蛋白质网络中复合体的识别方法研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 论文主要工作

1.4 论文结构安排

第2章 PPI网络中的复合体搜索算法综述

2.1 引言

2.2 相关概念

2.2.1 高通量大数据实验技术

2.2.2 蛋白质相互作用

2.2.3 PPI网络

2.2.4 PPI网络的研究要点

2.3 PPI数据库

2.4 常见的蛋白质复合体搜索算法

2.4.1 基于层次化的搜索算法

2.4.2 基于子网划分的搜索算法

2.4.3 基于稠密子网的搜索算法

2.4.4 基于流体模拟的搜索算法

2.4.5 基于种群随机的搜索算法

2.5 评价指标

2.5.1 F-measure

2.5.2 Accuracy

2.5.3 P-value

2.6 小结

第3章 基于蛋白质网络拓扑特征的复合体搜索方法

3.1 引言

3.2 算法描述

3.2.1 算法原理

3.2.2 算法流程

3.2.3 算法伪代码

3.3 实验与结果分析

3.3.1 数据集

3.3.2 评价指标

3.3.3 实验结果分析

3.4 小结

第4章 融合多种方法的蛋白质复合体搜索研究

4.1 引言

4.2 算法描述

4.2.1 算法原理

4.2.2 算法流程

4.2.3 算法伪代码

4.3 实验与结果分析

4.3.1 数据集

4.3.2 评价指标

4.3.3 实验结果分析

4.4 小结

第5章 结论与展望

5.1 结论

5.2 展望

参考文献

致谢

附录A 攻读学位期间所发表的学术论文及所参加项目

展开▼

摘要

近年来,伴随着蛋白质组学和系统生物学研究的逐步深入,利用蛋白质相互作用网络识别复合体逐渐成为生物信息学的一个研究热点。高通量大数据实验产生大量蛋白质数据,其中势必包含大量假阳性的数据,假阳性数据定会影响到计算方法搜索复合体的最终效果。因此,采用计算方法来搜索复合体之前需要去除假阳性的影响。本课题对蛋白质网络中相互作用的蛋白质进行研究,运用计算聚类方法从中搜索出蛋白质复合体,其中研究的主要要点包括以下两点:
  (1)为了减少通过高通量大数据实验发现的蛋白质数据中假阳性的影响,从而提升搜索蛋白质复合体识别的精度,本章中提出了一种新的搜索蛋白质复合体的算法:MCLAd。首先,基于蛋白质相互作用网络拓扑结构的特性,选择处理网络拓扑特性方法AdjstCD对所得到的高通量蛋白质相互作用数据进行预处理,减少数据的假阳性;其次,再结合经典的MCL聚类算法进行蛋白质复合体的聚类识别;最后,将笔者的算法MCLAd和现有的7种优秀方法:MCL,ClusterONE,MCODE,RRW,RNSC,COACH以及CORE算法分别进行了实验比较。通过大量实验验证显示,本论文所提出来的MCLAd搜索算法具有非常明显的实验效果,对搜索蛋白质复合体有非常好的实验性能。
  (2)集成ClusterONE,MCL和RRW三种方法的优势,本文提出了一种新的蛋白质复合体搜索算法MCR,并且将MCR分别同MCL,COACH,ClusterONE,MCODE,RRW,RNSC,CORE以及我们所提出的MCLAd方法进行实验比较。将上述算法分别作用在BioGRID蛋白质相互作用数据库和DIP蛋白质相互作用数据库这两个数据集上,并且将搜索所得的结果即蛋白质复合体分别同SGD以及MIPS这两种复合体标准数据集进行实验比较。实验表明,同其他搜索蛋白质复合体算法相比,MCR算法搜索出的蛋白质复合体同标准复合体数据集匹配,在搜索效率以及可靠性上面都具有非常大的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号