首页> 中国专利> 蛋白质三维结构的预测方法及预测装置

蛋白质三维结构的预测方法及预测装置

摘要

本发明提供了一种蛋白质三维结构的预测方法,包括:a、选择目标蚁群,初始化蚁群算法参数;b、初始化蛋白质构象,建立蛋白质构象与片段库的映射关系;c、以蛋白质构象上的任一位置为起点,目标蚁群在信息素的指引下进行优化,对优化后的蛋白质构象进行能量计算,选择能量最小的蛋白质构象;d、对能量最小的蛋白质构象进行局部优化,并进行能量计算,根据计算结果更新信息素矩阵,并将局部优化后的蛋白质构象的能量与能量最小的蛋白质构象的能量进行比较,选择能量小的蛋白质构象;e、重复步骤c~d,得到较优蛋白质构象;f、对较优蛋白质构象进行Loop重建,得到最优蛋白质构象。本发明还提供了一种蛋白质三维结构的预测装置。

著录项

  • 公开/公告号CN102402649A

    专利类型发明专利

  • 公开/公告日2012-04-04

    原文格式PDF

  • 申请/专利权人 苏州大学;

    申请/专利号CN201010287704.3

  • 发明设计人 吕强;

    申请日2010-09-17

  • 分类号G06F19/14(20110101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人常亮;李辰

  • 地址 215123 江苏省苏州市工业园区仁爱路199号苏州大学

  • 入库时间 2023-12-18 04:55:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-08-27

    授权

    授权

  • 2012-06-13

    实质审查的生效 IPC(主分类):G06F19/14 申请日:20100917

    实质审查的生效

  • 2012-04-04

    公开

    公开

说明书

技术领域

本发明涉及蛋白质结构预测技术领域,尤其涉及一种蛋白质三维结构的 预测方法及预测装置。

背景技术

生物学研究表明,蛋白质是由特定的氨基酸序列构成的。正常情况下, 蛋白质并不是以完全伸展的多肽链结构存在,而是以紧密折叠的三维结构存 在,并且一个特定蛋白质行使其功能的能力通常由其三维结构决定。因此, 确定蛋白质的三维结构,或称其构象,是生物领域的一项重要课题。

目前,采用X射线衍射和核磁共振等分析化学的方法已经实现了对部分 蛋白质三维结构的分析,但是,这些分析技术需要花费大量的时间和费用, 不能满足蛋白质结构分析的需要,而结合信息技术发展起来的蛋白质结构预 测方法由于具有快速的优点成为研究热点之一。

现有预测蛋白质结构的方法主要有两种:比较建模法和从头预测法。比 较建模法是通过比较目标蛋白质与另外一种已知结构、其氨基酸序列与目标 蛋白质联系密切的蛋白质进行预测,比较建模法需要以结构已知、且其氨基 酸序列与目标蛋白质相似的蛋白质为基础,如果不存在与目标蛋白质氨基酸 序列相似的蛋白质,则无法进行预测。而从头预测是假设折叠后的蛋白质取 能量最低的构象,通过计算得到蛋白质每一部分不同的卷曲状态对应的结构, 直到发现最低能量状态。从头预测蛋白结构有两个关键问题:一是找到一个 能严格区分蛋白质的天然构象和非天然构象的能量函数;二是选择适当的搜 索算法,即选择有效的优化算法。现有技术公开了使用遗传算法、模拟退火 算法等算法对蛋白质三维结构进行预测,但是,使用这些算法进行预测的精 度较低。

发明内容

有鉴于此,本发明所要解决的技术问题在于提供一种蛋白质三维结构的 预测方法及预测装置,本发明提供的预测方法能够实现对蛋白质三维结构的 从头预测,预测精度较高。

本发明提供了一种蛋白质三维结构的预测方法,包括:

a、选择目标蚁群,初始化蚁群算法参数;

b、初始化蛋白质构象,建立蛋白质构象与片段库的映射关系;

c、以所述蛋白质构象上的任一位置为起点,所述目标蚁群在信息素的指 引下对所述蛋白质构象进行优化,利用能量函数对优化后的蛋白质构象进行 能量计算,选择能量最小的蛋白质构象;

d、对所述能量最小的蛋白质构象进行局部优化,利用能量函数对局部优 化后的蛋白质构象进行能量计算,根据所述计算结果更新信息素矩阵,并将 所述局部优化后的蛋白质构象的能量与所述能量最小的蛋白质构象的能量进 行比较,选择能量小的蛋白质构象;

e、重复步骤c~d,直至满足终止条件,得到较优蛋白质构象;

f、对所述较优蛋白质构象进行Loop重建,得到最优蛋白质构象。

优选的,选择p个目标蚁群,初始化蚁群算法参数时,使p个目标蚁群 共享同一个信息素矩阵。

优选的,所述p个目标蚁群在信息素的指引下并行对所述蛋白质构象进 行优化,利用n个能量函数对优化后的蛋白质构象进行能量计算,所述1< n≤p。

优选的,还包括:

g、将所述最优蛋白质构象进行交叉,得到交叉蛋白质构象,所述交叉蛋 白质构象和所述最优蛋白质构象共同构成蛋白质构象decoys集。

优选的,所述步骤c包括:

c1、随机选择片段库F;

c2、随机选择片段位置i,从所述片段库F中确定第i组片段集合Fi

c3、目标蚁群在信息素的指引下从片段集合Fi中选择片段fj,并根据蛋白 质构象与片段库的映射关系,用fj替换所述初始蛋白质构象中对应位置的片 段;

c4、重复步骤c1~c3,使所述初始蛋白质构象上的所有片段至少被替换一 次,得到优化的蛋白质构象;

c5、重复步骤c1~c4,直至满足预定次数w,得到w个优化的蛋白质构象;

c6、利用能量函数分别对所述w个优化的蛋白质构象进行能量计算,选 择能量最小的蛋白质构象。

优选的,所述步骤d包括:

d1、随机选择片段库F;

d2、随机选择位置i,从所述片段库F中确定第i组片段集合Fi

d3、从Fi中选择p-pt个启发值ηij最高的片段{fj};

d4、根据蛋白质构象与片段库的映射关系,用{fj}中的片段替换步骤c中得 到的能量最小蛋白质构象中对应位置的片段,计算替换后的蛋白质构象与替 换前的蛋白质构象的能量差ΔE,并判断是否接受替换:如果ΔE<0,则接受 替换,如果ΔE>0,则根据Metropolis规则判断是否接受替换;

d5、重复步骤d4,直至{fj}中的p-pt个片段均至少经过一次替换;

d6、重复步骤d1~d5,直至满足预定次数Q,得到局部优化的蛋白质构象;

d7、利用能量函数对所述局部优化的蛋白质构象进行能量计算,根据所 述计算结果更新所述信息素矩阵,并将所述局部优化后的蛋白质构象的能量 与所述能量最小的蛋白质构象的能量进行比较,选择能量小的蛋白质构象。

本发明还提供可一种蛋白质三维结构的预测装置,包括:

蚁群选择单元,用于选择目标蚁群;

初始化单元,用于初始化蚁群算法参数和蛋白质构象,并建立蛋白质构 象和片段库的映射关系;

片段选择单元,用于选择蛋白质构象片段;

蚁群控制单元,用于控制所述目标蚁群在信息素的指引下对所述初始蛋 白质构象进行优化;

第一能量计算单元,用于对优化后的蛋白质构象进行能量计算,并选择 能量最小的蛋白质构象;

蛋白质构象局部优化单元,用于对所述能量最小的蛋白质构象进行局部 优化;

第二能量计算单元,用于对所述局部优化后的蛋白质构象进行能量计算;

信息素矩阵更新单元,用于根据第二能量计算单元的计算结果更新信息 素矩阵;

比较单元,用于对所述局部优化后的蛋白质构象的能量与所述能量最小 的蛋白质构象的能量进行比较,并选择能量小的蛋白质构象;

循环控制单元,用于控制对蛋白质构象进行优化和局部优化操作的循环;

判断单元,用于判断循环是否满足终止条件,如果否,则通知所述蚁群 控制单元继续进行控制所述目标蚁群在信息素的指引下对所述蛋白质构象进 行优化;如果是,则确定较优蛋白质构象;

Loop重建单元,用于对所述较优蛋白质构象进行Loop重建,得到最优蛋 白质构象。

优选的,还包括:

交叉控制单元,用于将所述最优蛋白质构象进行交叉。

与现有技术相比,本发明采用并行蚁群算法对蛋白质三维结构进行从头 预测,主要采用并行蚁群算法对蛋白质构象进行优化,并采用贪婪模拟退火 相结合的方法对所述优化后的蛋白质构象进行局部优化,在局部优化的过程 中选择迭代最好解更新并行蚁群共享的信息素矩阵,从而使随机搜索成为在 信息素指引下进行的搜索,提高了搜索的质量,从而提高了预测的精度。另 外,本发明融合了不同的能量函数对优化和局部优化后的蛋白质构象进行评 价,使预测得到的蛋白质结构能够融合不同能量函数的评价标准,减少单一 能量函数的偏好,从而更接近于蛋白质的实际结构。实验表明,采用本发明 提供的预测方法对第8届关于蛋白质结构预测技术评估(the 8th Critical  Assessment of Techniques for Protein Structure Prediction,CASP8)的全社会实 验所公布的13个从头预测类案例进行预测,将得到的结果与CASP8比赛结果 的实际排名进行对照,其中有2个案例的预测结果超过CASP8中最好的结果, 7个位列前10名,取得了较好的预测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例一提供的蛋白质三维结构的预测方法的流程图;

图2为本发明实施例一利用蚁群算法对蛋白质构象进行优化的流程图;

图3为本发明实施例一对蛋白质构象进行局部优化的流程图;

图4为本发明实施例二提供的蛋白质三维结构的预测方法的流程图;

图5为本发明实施例三提供的蛋白质三维结构的预测方法的流程图;

图6为本发明实施例提供的蛋白质三维结构的预测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明公开了一种蛋白质三维结构的预测方法和预测装置,通过共享信 息素矩阵的并行蚁群算法对所述蛋白质构象进行优化,然后采用贪婪模拟退 火相结合的方法对所述优化后的蛋白质构象进行局部优化,并在局部优化的 过程中选择迭代最好解更新并行蚁群共享的信息素矩阵,最后对局部优化后 的蛋白质构象进行Loop重建,得到最优蛋白质构象。本发明在并行预测过程 中,融合不同的能量函数对优化、局部优化和Loop重建后的蛋白质构象进行 评价,从而使预测得到的蛋白质构象能够融合不同能量函数的评价标准,减 少单一能量函数的偏好,从而更接近于蛋白质的实际结构。

下面结合实施例对本发明提供的蛋白质三维结构的预测方法和预测装置 进行详细描述。

实施例一

参见图1,图1为本发明实施例一提供的蛋白质三维结构的预测方法的流 程图。

步骤S101,选择目标蚁群,并初始化蚁群算法参数。

执行步骤S101,选择目标蚁群,即确定目标蚁群的数目,本实施例中确 定蚁群数目为1,即进行基于单蚁群算法的预测。

初始化蚁群算法参数,所述蚁群算法参数包括:

概率参数q1;在本发明中,概率参数q1的取值范围为[0,1],本实施例中 将其设置为0.8;

信息素τ,本实施例中将其初值设置为10;

信息素挥发系数ρ,在本发明中,信息素挥发系数ρ的取值范围为[0,1), 本实施例中将其设置为0.001;

用于确定循环次数的比例因子p-ac,本实施例中将其设置为0.6;

用于确定循环次数的比例因子p-cc,本实施例中将其设置为6;

蚂蚁个数m,本发明实施例中将其设置为50。

步骤S102、初始化蛋白质构象,并建立蛋白质构象与片段库的映射关系。

由于蛋白质构象具有丰富的自由度而且各自由度基于连续的变化空间, 为便于处理,采用片段库对搜索空间进行离散化。在本发明提供的预测方法 中,是以任意一个初始的蛋白质构象为起点,通过在信息素指导下从片段库 中选择片段来装配蛋白质结构,从而得到蛋白质构象。因此,需要对蛋白质 构象进行初始化,确定片段库,并建立蛋白质构象与片段库的映射关系。

在本实施例中,将各残基的φ、和ω分别赋值-150、150和180即可得 到近似直链的蛋白质构象。

对于片段库来说,本发明同时采用3残基片段库和9残基片段库两个片 段库,因此,需要对3残基片段库和9残基片段库分别建立映射关系,即使 各片段库和蛋白质构象具有对应的位置,以便实现后续优化和局部优化。

步骤S103、以所述蛋白质构象上的任一位置为起点,所述目标蚁群在信 息素的指引下对所述蛋白质构象进行优化,利用能量函数对优化后的蛋白质 构象进行能量计算,选择能量最小的蛋白质构象。

将蚁群和蛋白质构象初始化后,开始利用蚁群算法对蛋白质构象进行优 化,参见图2,图2为本发明实施例一利用蚁群算法对蛋白质构象进行优化的 流程图。

步骤S1031、随机选择片段库F。

本发明同时采用3残基片段库和9残基片段库两个片段库,因此,在进 行优化时,需要在两个片段库之间进行选择。本实施例中按照公式I进行选择:

F=F3if(qq0)F9otherwise

公式I

其中,F3表示3残基片段集合;F9表示9残基片段集合;q为[0,1]之间 的随机数;q0为常数,为选择3残基片段集合和9残基片段集合的概率参数, 本实施例中设置为0.6。

按照公式I,如果随机数q≤q0,则选择3残基片段库;其他情况下,选择 9残基片段库。

步骤S1032、随机选择蛋白质构象上的位置i,根据蛋白质构象与片段库的 映射关系,从所述片段库F中确定第i组片段集合Fi

在步骤S1031中选定片段库F后,随机选择蛋白质构象上的位置i作为预测 的起点,然后根据蛋白质构象和片段库的映射关系在选定的片段库F中确定第 i组片段集合Fi,由此确定了第i个位置上的片段可能的构象集。

步骤S1033、目标蚁群在信息素的指引下从片段集合Fi中选择片段fj,并根 据蛋白质构象与片段库的映射关系,用fj替换所述蛋白质构象中对应位置的片 段。

选定Fi后,目标蚁群在信息素的指引下按照公式II从Fi中选择片段fj

fj=argmaxfjFi[τij]α[ηij]βif(qq1)fjFiotherwise

公式II

其中,τ是信息素;η是启发值;参数α是调节信息素的权值;β是调节启 发值的权值;q为[0,1]之间的随机数;q1为常数,是调节蚁群在纵向挖掘 (intensification)与横向探索(diversification)之间的选择概率的参数,本实 施例中将q1设置为0.8。

按照公式II,如果q≤q1,则目标蚁群进行纵向挖掘,在片段集合Fi中选择 [τij]αij]β值最大的片段作为fj;其他情况下,则目标蚁群进行横向探索,在 片段集合Fi中随机选择fj

目标蚁群在信息素的指引下从片段集合Fi中选定片段fj后,根据蛋白质构 象和片段库的映射关系,用fj替换所述蛋白质构象中对应位置的片段,即完成 蛋白质构象中一个片段的替换。

步骤S1034、重复步骤S1031~步骤S1033,使所述蛋白质构象上的所有 片段至少被替换一次,得到优化的蛋白质构象。

完成蛋白质构象中一个片段的替换后,重复步骤S1031~步骤S1033,对 初始蛋白质构象上的其他片段进行替换,直至所述初始蛋白质构象上的所有 位置至少被替换一次,即该循环的理论终止条件是所述初始蛋白质构象上的 所有位置至少被替换一次,所述初始蛋白质构象上的所有位置至少被替换一 次后,得到一个优化的蛋白质构象。

在循环进行片段替换时,为了保证蛋白质构象上的所有位置至少被替换 一次,需要进行次数较多的循环。在本实施例中,根据初始蛋白质构象的长 度n和比例因子p-cc确定循环次数,即循环次数为p-cc×n次后,可认为所有 位置均被替换。

在本发明的其他实施例中,也可以为蚂蚁设置禁忌表,将已经替换过的 片段列入禁忌表,使蚂蚁在进行下一次片段选择时,只选择未经替换的片段。

步骤S1035、重复步骤S1031~步骤S1034,直至满足预定次数w,得到w 个优化的蛋白质构象。

得到一个优化的蛋白质构象后,重复步骤S1031~步骤S1034,继续对该 构象进行优化,直至满足预定次数w,即该循环的终止条件是满足预定次数w, 此时,得到w个优化后的蛋白质结构。

步骤S1036、利用能量函数分别对所述w个优化的蛋白质构象进行能量 计算,选择能量最小的蛋白质构象。

得到w个优化的蛋白质构象后,利用能量函数分别对所述w个蛋白质构 象进行评价,即计算各蛋白质构象的能量值,选择能量最小的蛋白质构象, 该能量最小的蛋白质构象即为通过蚁群算法优化后得到的蛋白质构象。

在利用蚁群算法对蛋白质构象进行优化时,由于蚁群算法是在信息素的 指引下进行片段的选择,每次选择都将为后续选择提供有益的反馈信息,因 此,得到的优化后的蛋白质构象精度较高。

步骤S104、对所述能量最小的蛋白质构象进行局部优化,利用能量函数 对局部优化后的蛋白质构象进行能量计算,根据所述计算结果更新信息素矩 阵,并将所述局部优化后的蛋白质构象的能量与所述能量最小的蛋白质构象 的能量进行比较,选择能量小的蛋白质构象。

经过步骤S103后,得到了能量最小的蛋白质构象,然后利用贪婪模拟退 火相结合的方法对所述能量最小的蛋白质构象进行局部优化。参照图3,图3 为本发明实施例一对蛋白质构象进行局部优化的流程图。

步骤S1041、选择片段库F。

在进行局部优化的过程中,本实施例首先根据公式I在3残基片段库和9 残基片段库两个片段库选择片段库,方法如步骤S1031。

步骤S1042、随机选择位置i,从所述片段库F中确定第i组片段集合Fi

选定片段库F后,随机选择位置i作为局部优化的起点,并在选定的片段库 F中确定第i组片段集合Fi,由此确定了第i个位置上的片段可能的构象集。

步骤S1043、从Fi中选择p-pt个启发值ηij最高的片段{fj}。

选定Fi后,从Fi中选择p-pt个启发值ηij最高的片段{fj},选择的具体过程如 下:

将Fi中的片段按照启发值ηij从高到低排列,选择前p-pt个片段作为{fj}。

步骤S1044、根据蛋白质构象与片段库的映射关系,用{fj}中的片段替换 步骤S103得到的能量最小蛋白质构象中对应位置的片段,计算替换后的蛋白 质构象与替换前的蛋白质构象的能量差ΔE,并判断是否接受替换:如果ΔE <0,则接受替换,如果ΔE>0,则根据Metropolis规则判断是否接受替换。

得到{fj}后,用其中的片段替换步骤S103得到的能量最小蛋白质构象中对 应位置的片段,并判断是否接受替换,判断规则如下:

分别利用能量函数计算未被步骤S1043选择的片段fj替换的蛋白质构象的 能量值和被步骤S1043选择的片段fj替换的蛋白质构象的能量值,计算后者与 前者的差值ΔE,并根据ΔE判断是否接受该替换:

如果ΔE<0,说明替换后的蛋白质构象能量更小,则接受替换;

如果ΔE>0,则根据Metropolis规则判断是否接受替换。

Metropolis规则是根据公式III判断是否接受替换:

P=exp(-ΔE/kT)>random(0,1)

公式III

其中,k为常数,T为温度。

按照Metropolis规则,如果满足公式III,则接受替换,如果不满足,则 拒绝替换。

步骤S1045、重复步骤步骤S1044,直至{fj}中的p-pt个片段均至少经过一 次替换。

将{fj}中的p-pt个片段依次重复步骤S1044,进行替换、判断是否接受替换 的处理后,得到第i组片段最优的蛋白质构象。

对第i组片段进行循环局部优化的目的是增加得到的蛋白质构象的精度。

步骤S1046、重复步骤S1041~步骤S1045,直至满足预定次数Q,得到局 部优化的蛋白质构象。

对第i组片段进行局部优化后,继续对其他组片段进行局部优化,直至满 足预定次数Q。在循环进行局部优化时,为了使蛋白质构象上的大部分甚至 所有片段至少被局部优化一次,预定次数Q应该足够大。在本实施例中,Q 可以由初始蛋白质构象的长度n和比例因子p-cc确定循环次数,即循环次数 为p-cc×n次。

在本发明的其他实施例中,也可以设置禁忌表,将已经局部优化过的片 段列入禁忌表,使在进行下一次片段选择时,只选择未经局部优化的片段。

满足循环次数Q后,即得到局部优化的蛋白质构象。

步骤S1047、利用能量函数对所述局部优化的蛋白质构象进行能量计算, 根据所述计算结果更新所述信息素矩阵,并将所述局部优化后的蛋白质构象 的能量与所述能量最小的蛋白质构象的能量进行比较,选择能量小的蛋白质 构象。

得到局部优化的蛋白质构象后,利用能量函数对该蛋白质构象进行能量 计算,并根据所述计算结果更新信息素矩阵。在对所述信息素矩阵进行更新 时,采取基于最大最小蚂蚁系统(MMAS)的全局信息素更新规则,按照公 式IV选择迭代最好接进行信息素更新:

τij=(1-ρ)τij+ρΔτij

公式IV

其中,信息素挥发系数ρ,在本发明中,信息素挥发系数ρ的取值范围为 [0,1);Δτ=Q(E(M)),M为一种蛋白质构象状态,E为能量函数,Q 为质量函数,本发明中采用反余切函数,采用Q(E(M))将构象M的能量 值用质量函数Q映射到特定区间,能够缩小能量值值域。

对信息素矩阵进行更新后,能够动态调整蚁群算法参数的取值,从而不 会陷入局部最优的缺陷。

对所述信息素进行更新后,还需要将所述局部优化后的蛋白质构象的能 量与所述能量最小的蛋白质构象的能量进行比较,选择能量小的蛋白质构象。

需要说明的是,该步骤中使用的能量函数与步骤S1036中使用的能量函 数为同一个能量函数。

步骤S105、重复步骤S103~步骤S104,直至满足终止条件,得到较优蛋 白质构象。

经过步骤S103的优化和步骤S104的局部优化后,得到了一个能量小的 蛋白质构象,同时对信息素矩阵进行了更新,为了使得到的蛋白质构象与实 际构象更为接近,需要重复步骤S103~步骤S104,即进行循环优化和局部优 化。

在进行循环的过程中,由于信息素矩阵的更新,目标蚁群在搜索选择过 程中不会陷入局部最优的困境,而是随着信息素矩阵的更新更新对蛋白质片 段的选择,达到更好的搜索质量。

满足终止条件,也即满足预定的循环次数。在本实施例中,根据初始蛋 白质构象的长度n和比例因子p-ac确定终止条件,即循环p-ac×n次后,终止 循环,得到较优的蛋白质构象。

步骤S106、对步骤S105得到的较优蛋白质构象进行Loop重建,得到最 优蛋白质构象。

在本实施例中,采用单残基片段随机插入的方法对所述较优蛋白质构象 进行Loop重建,具体包括以下步骤:

步骤S1061、根据3残基片段库及9残基片段库生成单残基片段库,并过 滤掉该单残基片段库中二级结构标签非L的片段;

步骤S1062、根据预测结构中的二级结构标签确定Loop区域;

步骤S1063、随机选择Loop区域中的位置i,从步骤S1061得到的单残基片 段库中确定第i组片段集合Fi

步骤S1064、随机从Fi中选择片段fj,用fj替换所述较优的蛋白质构象上对 应位置的片段;

步骤S1065、利用能量函数对替换后的蛋白质构象进行能量计算,并判断 是否接受替换:如果能量值小于替换前的能量值,则接受替换;如果能量值 大于替换前的能量值,则拒绝替换;

步骤S1066、重复步骤S1061~步骤S1065,直至满足预定次数N,得到最 优蛋白质构象。

在上述循环过程中,预定次数N也与蛋白质长度n有关,本实施例优选 为循环500×n次。

需要说明的是,步骤S1065中使用的能量函数与步骤S1036和步骤S1044 中使用的能量函数为同一个能量函数。

在将初始蛋白质构象经过优化、局部优化和Loop重建后,即可得到能量 最小的蛋白质构象,即预测得到蛋白质三维结构。

实施例二

在实施例一公开的基础上,本发明还公开了一个实施例,参见图4,图4 为本发明实施例二提供的蛋白质三维结构的预测方法的流程图。

与实施例一不同,实施例二在选择目标蚁群时,选择了p个蚁群,p>1, 即实施例二是以多个蚁群并行对蛋白质结构进行预测的。选择目标蚁群时, 可以根据处理器的个数确定目标蚁群的个数,本实施例中将蚁群个数确定为8 个。

在对各个蚁群算法参数进行初始化时,使8个目标蚁群共享同一个信息 素矩阵,即8个目标蚁群共用同一个信息素矩阵对同一蛋白质进行三维结构 预测。

在本实施例中,每个目标蚁群均采用实施例一公开的方法及过程对蛋白 质结构进行预测,如图4所示,每个目标蚁群在信息素的指引下对蛋白质构 象进行优化,优化后的蛋白质构象再经过局部优化和Loop重建后分别得到最 优蛋白质构象,p个蚁群得到p个最优蛋白质构象,该p个最优蛋白质构象即 为预测得到的蛋白质三维结构集。本实施例中,p为8,即8个蚁群并行进行 预测后,得到8个最优蛋白质结构。

在8个蚁群并行进行预测的过程中,在局部优化阶段,由于需要对信息 素矩阵进行更新,而8个蚁群共享同一个信息素矩阵,因此,并行预测能够 融合不同并行体的搜索经验,进而使预测结果精度更高。

为了融合不同的能量函数,p个蚁群在进行预测时,利用n个能量函数对 蛋白质构象进行能量计算,所述1<n≤p。在进行并行预测时,p个蚁群在预 测过程中使用n个能量函数,意味着每个蚁群在进行优化、局部优化和Loop 重建过程中使用同一个能量函数,但是p个蚁群并不使用同一个能量函数。 在本实施例中,n为5,即8个并行蚁群使用5个能量函数进行蛋白质结构的 预测,得到的8个最优蛋白质构象能够融合5个能量函数的评价,使得预测 得到的蛋白质结构更为接近蛋白质的实际结构。

采用并行预测的方法不仅能够增加搜索次数、提高预测精度,而且由于 采用了不同的能量函数对蛋白质构象进行评价,而使得预测得到的蛋白质结 构能够融合不同能量函数的评价,减少了单一能量函数的偏好。

实施例三

在实施例二公开的基础上,本发明还公开了一个实施例,参见图5,图5 为本发明实施例三提供的蛋白质三维结构的预测方法的流程图。

在采用并行蚁群的预测方法得到p个最优蛋白质构象后,还包括步骤 S107:对所述p个蛋白质构象进行交叉,快速得到p个交叉蛋白质构象,交 叉的方法具体为:

步骤S1071、在所述p个最优蛋白质构象随机选择两个蛋白质构象Mbi和Mbj为父构象;

步骤S1072、随机在父构象Mbi和Mbj上确定位置k,以位置k为切断点,将 父构象Mbi切割成Mbik-和MbiK+,将父构象Mbj切割成Mbjk-和MbjK+

步骤S1073、连接Mbik-和MbjK+形成交叉蛋白质构象Ci;连接Mbjk-和MbiK+形 成交叉蛋白质构象Cj

步骤S1074、重复步骤S1071~步骤S1073,直至p个最优蛋白质构象均经 过交叉,得到p个交叉蛋白质构象。

将p个最优蛋白质构象经过交叉快速形成p个交叉蛋白质构象能够进一 步融合并行蚁群的搜索结果,从而产生更多的蛋白质构象。

得到交叉蛋白质构象后,使p个交叉蛋白质构象与p个最优蛋白质构象 共同构成蛋白质构象decoys集。

为了说明本实施例公开的预测方法能够实现对蛋白质三维结构的预测结 果,且预测结果精度较高,本发明通过该预测方法对第8届关于蛋白质结构 预测技术评估(the 8th Critical Assessment of Techniques for Protein Structure  Prediction,CASP8)的全社会实验所公布的13个从头预测类案例进行预测, 结果参见表1,表1为本发明预测结果与CASP8结果的比较情况。

表1 本发明预测结果与CASP8结果的比较情况

其中,“预测目标”是CASP8的预测目标编号,“human最高分数”指 CASP8所公布的Human类别中最好结构与天然结构相比较的GDT_TS分数; “server最高分数”指CASP8所公布的Server类别中最好结构与天然结构相 比较的GDT_TS分数;“本发明分数”表示采用本发明的预测方法所得到的 蛋白质结构模型的GDT_TS分数;“human排名”表示本发明得到的蛋白质 结构模型的GDT_TS分数在Human类型中的排名情况;“server排名”表示 本发明得到的蛋白质结构模型的GDT_TS分数在server类型中的排名情况; “decoys中最高”表示本发明所得到的decoys集中与天然构象相比最高的 GDT_TS分数;“时间”表示本发明预测得到最终decoys集的平均时间。

由表1可知,采用本发明提供的预测方法,对T416-D2和T443-D1的预 测结果超过CASP8中最好的结果,对其中7个目标的预测位列前10名。由 此可见,本发明提供的预测方法对蛋白质三维结构的预测精度较高、结果较 为准确。

实施例四

本发明实施例四公开了一种蛋白质三维结构的预测装置,参见图6,图6 为本发明实施例提供的蛋白质三维结构的预测装置的结构示意图。

该预测装置主要包括:

蚁群选择单元601,该单元主要用于选择目标蚁群。

初始化单元602,该单元主要用于初始化蚁群算法参数和蛋白质构象,并 建立蛋白质构象和片段库的映射关系。

对于初始化单元602来说,当蚁群选择单元601选择p个目标蚁群时, 初始化单元602在初始化蚁群算法参数时,能够实现使p个蚁群共享一个信 息素矩阵。

片段选择单元603,该单元用于选择蛋白质构象片段。

片段选择单元603的主要作用是进行蛋白质构象片段的选择,包括初始 片段的选择和循环过程中片段的选择。

蚁群控制单元604,用于控制所述目标蚁群在信息素的指引下对所述蛋白 质构象进行优化。蚁群控制单元604不仅控制目标蚁群在初始信息素的指引 下对蛋白质构象进行优化,在信息素矩阵更新后,蚁群控制单元604还控制 目标蚁群在更新后的信息素的指引下对蛋白质构象进行优化。

第一能量计算单元605,用于对优化后的蛋白质构象进行能量计算,并选 择能量最小的蛋白质构象。第一能量计算单元605根据能量函数对优化后的 蛋白质构象进行能量计算,并以能量最小的蛋白质构象作为优化的蛋白质构 象。

蛋白质构象局部优化单元606,用于对所述能量最小的蛋白质构象进行局 部优化。蛋白质构象局部优化单元606根据贪婪模拟退火相结合的方法对能 量最小的蛋白质构象进行局部优化。

第二能量计算单元607,用于对所述局部优化后的蛋白质构象进行能量计 算。第二能量计算单元607根据能量函数对局部优化后的蛋白质构象进行能 量计算。

信息素矩阵更新单元608,用于根据第二能量计算单元的计算结果更新信 息素矩阵。

比较单元609,用于对所述局部优化后的蛋白质构象的能量与所述能量最 小的蛋白质构象的能量进行比较,并选择能量小的蛋白质构象。

循环控制单元610,用于控制对蛋白质构象进行优化和局部优化操作的循 环。

判断单元611,用于判断循环是否满足终止条件,如果否,则通知所述蚁 群控制单元继续进行控制所述目标蚁群在信息素的指引下对所述蛋白质构象 进行优化;如果是,则通知循环控制单元610停止循环,确定较优蛋白质构 象;

Loop重建单元612,用于对所述较优蛋白质构象进行Loop重建,得到最 优蛋白质构象。

在本实施例中,蚁群选择单元601选定目标蚁群后,由初始化单元602 对蚁群算法参数和蛋白质构象进行初始化,并建立蛋白质构象和片段库的映 射关系。然后,片段选择单元603随机选择蛋白质构象片段,并由蚁群控制 单元604控制目标蚁群从选定的蛋白质构象片段开始对蛋白质构象进行优化, 实现对整个蛋白质构象的优化后,第一能量计算单元605根据能量函数对优 化后的蛋白质构象进行能量计算,并选择能量最小的蛋白质构象。得到能量 最小的蛋白质构象后,蛋白质构象局部优化单元606根据贪婪模拟退火相结 合的方法对所述能量最小的蛋白质构象进行局部优化,第二能量计算单元607 根据能量函数对局部优化后的构象进行能量计算,信息素矩阵更新单元608 根据该计算结果对信息素矩阵进行更新,同时,比较单元609根据该结果对 所述局部优化后的蛋白质构象的能量与所述能量最小的蛋白质构象的能量进 行比较,并选择能量小的蛋白质构象。得到能量小的蛋白质后,由循环控制 单元610控制对蛋白质构象进行优化和局部优化操作的循环,以便实现对蛋 白质构象的多次优化和局部优化。在循环过程中,判断单元611用于判断循 环是否满足终止条件,如果否,则通知所述蚁群控制单元继续进行控制所述 目标蚁群在信息素的指引下对所述蛋白质构象进行优化;如果是,则通知循 环控制单元610停止循环,确定较优蛋白质构象。得到较优蛋白质构象后, Loop中间单元612对得到的较优蛋白质构象进行Loop重建,得到最优的蛋 白质构象。

在本发明提供的其他实施例中,所述装置还包括交叉控制单元613,所述 交叉控制单元613用于将所述最优蛋白质构象进行交叉,得到交叉蛋白质构 象。在运用p个并行蚁群进行预测时,p个蚁群通过上述优化、局部优化和 Loop重建过程可以得到p个最优蛋白质构象,然后交叉控制单元613将p个 最优蛋白质构象进行交叉,得到p个交叉蛋白质构象。该p个最优蛋白质构 象和p个交叉蛋白质构象形成decoys集。

综上所述,本发明采用并行蚁群算法对蛋白质三维结构进行从头预测, 主要采用并行蚁群算法对蛋白质构象进行优化,并采用贪婪模拟退火相结合 的方法对所述优化后的蛋白质构象进行局部优化,在局部优化的过程中选择 迭代最好解更新并行蚁群共享的信息素矩阵,从而使随机搜索成为在信息素 指引下进行的搜索,提高了搜索的质量,从而提高了预测的精度。另外,本 发明融合了不同的能量函数对优化和局部优化后的蛋白质构象进行评价,使 预测得到的蛋白质结构能够融合不同能量函数的评分标准,减少了单一能量 函数的评价偏好,从而更接近于蛋白质的实际结构。实验表明,采用本发明 提供的预测方法对第8届关于蛋白质结构预测技术评估(the 8th Critical  Assessment of Techniques for Protein Structure Prediction,CASP8)的全社会实 验所公布的13个从头预测类案例进行预测,将得到的结果与CASP8比赛结果 的实际排名进行对照,其中有2个案例的预测结果超过CASP8中最好的结果, 7个位列前10名,取得了较好的预测效果。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。 对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述 的比较简单,相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、 处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存 储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可 编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的 任意其它形式的存储介质中。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号