法律状态公告日
法律状态信息
法律状态
2015-05-27
授权
授权
2013-04-03
实质审查的生效 IPC(主分类):G06F19/18 申请日:20121204
实质审查的生效
2013-02-27
公开
公开
技术领域
本发明涉及基于网络水平的关键蛋白预测领域,特别是一种基于部分已 知关键蛋白和生物网络拓扑特性预测新关键蛋白的方法。
背景技术
蛋白质是构成一切细胞和组织结构必不可少的成分,它是生理功能的执 行者,也是生命现象的体现者。不同的蛋白执行不同的生理功能。其中,存 在一部分蛋白,通过基因剔除式突变将其移除后会造成有关蛋白质复合物功 能丧失,并导致生物体无法生存,这类蛋白被称为关键蛋白。有效的预测关 键蛋白对研究细胞的生长调控过程具有重要意义,对病原生物学的研究以及 药物设计同样也具有重要价值。
在生物学领域,一般利用基因敲除、RNA干扰等实验方法,通过观察生 物体是否能正常生存来辨别一个蛋白是否是关键的。依靠生物实验预测关键 蛋白的方法虽然准确有效,但是成本高且效率低。近年来,随着酵母双杂交、 串联亲和纯化、质谱分析等高通量的蛋白组技术的发展,可获得的蛋白相互 作用(protein-protein interaction,PPI)数据越来越多,为从网络水平上预测关键 蛋白提供了条件。研究表明,一个蛋白的关键性与它在生物网络中所对应节 点的拓扑特性密切相关。Jeong等人在2001年Nature上发表的文章中提出“中 心性-致死性”法则(centrality-lethality rule),该法则表明一个蛋白参与的相互 作用越多,这个蛋白对细胞的生存也就越重要。近年来,出现了一系列网络 中心性预测方法,典型的中心性测度有:度中心性(degree centrality,DC),介 数中心性(betweenness centrality,BC),接近度中心性(closeness centrality,CC), 子图中心性(subgraph centrality,SC),特征向量中心性(eigenvector centrality, EC)和信息中心性(information centrality,IC)等。
节点的度中心性DC定义为网络中与该节点直接相连节点的个数。节点的 介数中心性BC表示网络中所有最短路径中经过该节点的数目占所有最短路 径数的比例。节点的接近度中心性CC为反比于该节点到网络中其它所有节点 的最短路径之和。节点的子图中心性SC是该节点参与网络闭合回路的总数。 节点的特征向量中心性EC被定义为网络邻接矩阵的主特征向量该节点的分 量。节点的信息中心性IC是测量以该节点为端点的路径的调和平均长度。
除了这六种经典的中心性测度,还有一些基于其他拓扑特性的预测关键蛋 白质的方法,比如瓶颈(Bottle Neck,BN)和最大稠密邻居子图(Density of Maximum Neighborhood Component,DMNC)等。瓶颈法将网络中所有节点 分别作为根节点建立最短路径树集合。对于以节点v为根节点的最短路径树 Tv,定义Tv中节点w的权重为其子孙节点的个数,若节点w的权重小于等于 n/4(n是Tv的节点数目),则w节点被定义为瓶颈节点。BN(w)为节点w作为 瓶颈节点出现在最短路径树集合中的次数。最大稠密邻居子图针对每个节点u 的邻居节点构建邻居子网络N(u),DMNC(u)为ENe,其中E为子网络N(u)中 边的条数,N为节点的个数,调和系数e一般设定为1.7。
已有大量研究表明,任何一种中心性测度的预测结果都远远好于随机选择 的结果,这说明蛋白的关键性与其对应节点的拓扑中心性存在较为显著的相 关性。虽然对基于PPI网络拓扑特性的关键蛋白预测方法的研究已经有了较 大进展,但是预测的准确度依然存在很大的提升空间。考虑到目前每个物种 都存在一定数量的已知关键蛋白,例如DEG数据库搜集了多个物种的关键蛋 白信息,如表1所示,是否可以利用部分已知的关键蛋白和PPI网络的拓扑 特性进一步提高关键蛋白预测的准确性是一项非常有意义的探索。
表1DEG数据库中一些物种的已知关键蛋白数目
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种实现简单 的基于先验知识和网络拓扑特性的关键蛋白预测方法,利用部分已知关键蛋 白信息,通过评估其他蛋白与这些已知关键蛋白在拓扑上的密切程度来预测 其他蛋白的关键性,解决化学实验方法成本昂贵和耗时等问题,提高关键蛋 白预测准确度。
为解决上述技术问题,本发明所采用的技术方案是:一种基于先验知识 和网络拓扑特性的关键蛋白预测方法,只需根据PPI信息和部分已知关键蛋 白信息就能够较准确地预测未知关键蛋白,既能用于非加权PPI网络,也能 用于加权PPI网络,该方法的步骤为:
1)输入蛋白相互作用信息,用k表示已知的关键蛋白节点,n表示PPI 网络中关键蛋白的数量(k个已知关键蛋白加上预测出来的关键蛋 白);
2)根据蛋白相互作用信息构建无向图G:输入一组蛋白相互作用信息, 过滤其中重复的相互作用和自相互作用,构建无向图G;其中 G=(V,E),V代表蛋白节点集合,E代表蛋白相互作用集合;
3)生成初始的关键蛋白候选集合NK:用候选关键节点集合P存储预 测的关键蛋白质,初始化所述关键节点集合P为空集;用集合K 存储k个已知的关键蛋白,关键蛋白候选集合NK=Nv∩(V-K),v ∈K;Nv为节点v的所有邻居节点的集合;
4)计算共簇系数并以此扩展所述候选关键节点集合P:若所述关键蛋 白候选集合NK为非空集,分别计算所述关键蛋白候选集合NK中 的节点与所述集合K的共簇系数,取出共簇系数最大的一个节点 v,放入所述集合K和所述候选关键节点集合P中,同时更新所述 关键蛋白候选集合NK;若所述关键蛋白候选集合NK为空集,分 别计算集合V-K中的节点与所述集合K的共簇系数,取出共簇系 数最大的一个节点u,放入所述集合K和所述候选关键节点集合P 中,同时更新所述关键蛋白候选集合NK;
5)判断|P|是否等于(n-k),则是,进入步骤6),若否,返回步骤4), 其中|P|表示扩展后的候选关键节点集合P中的元素个数;
6)输出扩展后的候选关键节点集合P中的所有节点。
与现有技术相比,本发明所具有的有益效果为:本发明在考虑蛋白相互 作用网络的拓扑特性的基础上,以k个已知的关键蛋白作为种子节点,以该 集合中每个节点的邻居节点与集合K的共簇系数作为判断条件不断扩充候选 关键蛋白节点集合,直至得到给定预测个数的关键蛋白为止。该方法能够有 效地预测关键蛋白,为生物学家进行关键蛋白预测的实验和进一步研究提供 有价值的参考信息;本发明的方法实现简单,解决了化学实验方法成本昂贵 和耗时等问题。
附图说明
图1为DIP数据集的网络图(空心节点代表关键蛋白,实心节点代表非关 键蛋白);;
图2为本发明CPPK的流程图;
图3为本发明CPPK与8种中心性测度DC、BC、CC、SC、EC、IC、 BN、DMNC包含已知关键蛋白预测结果的准确度比较图:图3(a)预测100个 关键蛋白质;图3(b)预测200个关键蛋白质;图3(c)预测300个关键蛋白质; 图3(d)预测400个关键蛋白质;图3(e)预测500个关键蛋白质;图3(f)预测600 个关键蛋白质;
图4为本发明CPPK与8种中心性测度DC、BC、CC、SC、EC、IC、 BN、DMNC排除已知关键蛋白预测结果的准确度比较图:图4(a)预测100个 关键蛋白质;图4(b)预测200个关键蛋白质;图4(c)预测300个关键蛋白质; 图4(d)预测400个关键蛋白质;图4(e)预测500个关键蛋白质;图4(f)预测600 个关键蛋白质;
图5为本发明CPPK基于不同数量的已知关键蛋白的预测准确度比较图: 图5(a)包含已知关键蛋白的预测结果;图5(b)排除已知关键蛋白的预测结果。
具体实施方式
以下结合附图详细说明本发明的具体实施方式。
目前研究最为广泛的物种是酵母,而且已经具有一定数量的通过实验手 段测定的酵母关键蛋白。本发明从DIP(the database of interacting proteins)数据 库下载得到酵母的蛋白相互作用网络数据。将相互作用数据去除自相互作用 和冗余的相互作用,最终形成的蛋白相互作用网络包括5093个酵母蛋白和 24743对相互作用。实验所用的关键蛋白数据来源于MIPS(Munich Information center for Protein Sequences),SGD(Saccharomyces Genome Database),DEG (Database of Essential Genes)和SGDP(Saccharomyces Genome Deletion Project) 四个数据库。通过比对,实验所用酵母的PPI网络中的5093个蛋白,共有1167 个是关键蛋白,3591个是非关键蛋白,剩余的335个蛋白的关键性未知。
我们对每个关键蛋白的邻居节点的关键性进行统计分析发现,约98%的 关键蛋白至少有一个邻居节点也是关键蛋白,也就是说关键蛋白彼此之间存 在紧密联系,如图1所示。鉴于此,本发明,通过引入部分已知关键蛋白信 息并考虑PPI网络的拓扑特性,提出了基于部分已知关键蛋白和网络拓扑特 性预测新的关键蛋白的方法CPPK。
为了清晰描述基于部分已知关键蛋白和网络拓扑特性预测新关键蛋白的 方法,我们将给出该方法涉及的相关定义。
1.边聚集系数
聚集系数最早是由Watts和Strogatz提出来的,用于刻画网络中某个节点 与其邻居之间的亲疏程度,也是复杂网络中最重要的拓扑特征之一,已被广 泛应用于PPI网络等复杂网络的拓扑特性分析。给定PPI网络中的一条边 e(u,v),我们用Nu和Nv分别表示节点u和节点v的邻居节点的集合,边e(u,v) 的边聚集系数被定义为:
边聚集系数ECC(u,v)是一个局部变量,刻画了边e(u,v)的两个节点u和v 的亲疏程度,e(u,v)的取值范围是[0,1],其取值越大表明节点u和节点v属于 同一个簇的可能性越大。
2.共簇系数
由于关键蛋白之间存在比较紧密的联系,簇中的节点更倾向于表现出关 键性。将k个已知关键节点记为集合K,并记录集合K中蛋白节点的外部邻 居节点(不在集合K的邻居节点)集合NK,u∈NK,则u与集合K的共簇系 数为:
显然,节点u的共簇系数越大,该节点是关键蛋白的可能性也越大。
如图2所示,本发明的方法可以划分为4个子过程:构建PPI网络无向图, 生成初始的关键蛋白候选集合,计算共簇系数并以此扩展候选关键节点集合 且重复该过程,输出结果。
子过程1:根据PPI信息构建无向图G:输入一组PPI信息,过滤其中的 重复的相互作用和自相互作用,构建无向图G;
子过程2:生成初始的关键蛋白候选集合NK:用候选关键节点集合P存储 预测的关键蛋白质,初始化为空集;用集合K存储k个已知的关键蛋白,集 合NK=Nv∩(V-K),v∈K;
子过程3:计算共簇系数并以此扩展候选关键节点集合P:若集合NK为非 空集,分别计算集合NK中的节点与集合K的共簇系数,取出共簇系数最大的 一个节点v,放入集合K和集合P,同时更新集合NK;若集合NK为空集,分 别计算集合V-K中的节点与集合K的共簇系数,取出共簇系数最大的一个节 点u,放入集合K和集合P,同时更新集合NK,重复该过程直到预测出n-k 个(|P|=n-k)新的关键蛋白节点;
子过程4:输出结果:输出集合P中所有节点,即该发明预测的新关键蛋 白。
基于部分已知关键蛋白和网络拓扑特性预测新关键蛋白方法CPPK的有 效性验证:
预测准确度是最常用的关键蛋白预测方法的评估指标,因此我们选择预 测准确度比较CPPK与DC、BC、CC、SC、EC、IC、BN、DMNC的预测结 果,预测准确度定义如下:
其中,Mi代表i方法,Pi代表i方法预测的关键蛋白集合,Ve代表真实的 关键蛋白集合。
本发明方法CPPK与其他方法预测的关键蛋白结果的准确度比较:
分别对8种中心性测度参数DC、BC、CC、SC、EC、IC、BN、DMNC从 大到小排序,选出前100,200,300,400,500和600的蛋白作为候选关键蛋 白,通过预测准确度的计算公式,分别计算每种中心性测度的预测准确度并 相互比较。对于方法CPPK,我们选择100个随机关键节点作为已知的关键蛋 白。为了证明CPPK方法具有较好的鲁棒性,预测准确度的提高不是由于特定 的已知关键蛋白造成的,我们运行20次(每次随机选择100个关键节点作为已 知关键蛋白节点)的实验结果,并取20次的平均值作为实验结果。图3为CPPK 与其他8种方法预测结果的准确度比较图。在预测600个关键蛋白的情况下, CPPK的预测结果相对于DC、BC、CC、SC、EC、IC、BN、DMNC的预测结 果提高的百分比为48.8%,69.8%,63.8%,69.0%,69.0%,48.8%,84.0%, 409%。
在预测结果包含已知关键蛋白节点的情况下,有人会认为CPPK方法预 测结果较高的准确率是由于已知关键蛋白节点包含在预测结果内造成的,而 其他方法没有已知的关键蛋白,从而造成了比较的不公平性。为了消除这一 质疑,我们将CPPK预测结果的已知关键蛋白剔除,同时也将其他方法预测 结果中出现在CPPK已知关键蛋白集合里的节点剔除。实验结果如图4所示, 在预测600个关键蛋白的情况下,CPPK的预测结果相对于BC、CC、SC、 EC和BN的预测结果提高的百分比超过了40%,相对于DC和IC提过的百分 比超过了26%,相对于DMNC提过的百分比超过了16.8%。
已知关键蛋白和扩充法则对于方法CPPK预测新关键蛋白的作用分析:
为了验证已知的关键蛋白和扩充法则对于预测新关键蛋白具有重要作用, 我们在最常用的度中心性的基础上引入已知关键蛋白质,得到Pr-DC方法, 该方法的具体过程如下:
步骤(1)、(2)与方法CPPK的步骤(1)、(2)相同;
(3)若集合NK为非空集,分别计算集合NK中节点v的邻居节点集合Nv与 集合K的交集Nv∩K,取出|Nv∩K|最大的一个节点放入集合K和集合P,同 时更新集合NK;若集合NK为空集,分别计算集合V-K中的节点u的邻居节 点Nu与集合K的交集Nu∩K,取出|Nu∩K|最大的一个节点放入集合K和集合 P,同时更新集合NK;
(4)重复步骤(3)直到预测出n-k个(|P|=n-k)新的关键蛋白节点为止。
Pr-DC的结果如表2所示。在Top100~Top600水平,Pr-DC比DC的预测 准确度均有2%左右的提高,在Top100~Top200水平,CPPK比ECC的预测准 确度高15%以上,可见已知关键蛋白对于预测准确度具有一定帮助。而CPPK 比Pr-DC的预测准确度在Top100~Top300水平均有高于20%的提高,可见扩 充法则对于预测新的关键蛋白具有较大帮助。
表2各种方法预测关键蛋白结果的准确度(不包含已知关键蛋白)
已知关键蛋白数量对于关键蛋白预测结果的影响:
为了验证已知关键蛋白对于预测关键蛋白的重要性,我们选择不同数量 (50,100,150,200,250)的已知关键蛋白用来预测新的关键蛋白并进行结果比较。 我们比较并分析两种情况:包含已知关键蛋白和排除已知关键蛋白的预测结 果。其中图5(a)是CPPK在包含已知关键蛋白的情况下的预测结果的准确度, 图5(b)是CPPK在排除已知关键蛋白情况下的预测结果准确度。
通过图5(a)我们可以看出已知关键蛋白越多的情况下CPPK预测的关键 蛋白结果的准确度越高。当然,较多的关键蛋白质能够为预测新关键蛋白质 提供更多的信息,但是通过图5(b)我们发现在排除已知关键蛋白的情况下, 已知的关键蛋白数量的多少对于预测准确度的影响相差很小。因此,本发明 也适用于已知关键蛋白的数量不多的物种预测新的关键蛋白。
机译: 一种基于人工生命的关键绩效指标预测方法及装置
机译: 基于关键字的网络上信息检索结果的预测方法,以及用于该方法的服务器,程序和记录介质
机译: Diamino -N,一种包含N-二氢吡唑啉酮衍生物的组合物,以及通过应用基于Golden的高光组合物或基础油对角蛋白纤维进行染色的可预测方法