首页> 中国专利> 一种基于阶段性多策略的群体构象空间采样方法

一种基于阶段性多策略的群体构象空间采样方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种基于阶段性多策略的群体构象空间采样方法，包括以下步骤：在差分进化算法框架下，将整个算法过程分为多个阶段，对每个阶段设置一组策略池，当算法达到某个阶段时，从其对应的策略池中，随机选取一个策略，基于片段组装技术，生成新的测试构象个体，从而提高构象采样能力和算法的收敛速度；同时在构象选择环节引入距离谱约束，当测试构象的能量高于目标构象时，则比较两者的距离差，若测试个体的距离差较小，则以一定的概率接受测试构象，从而引导算法采样得到能量更低且结构更合理的构象，提高算法的预测精度。

著录项

公开/公告号CN105808973A

专利类型发明专利
公开/公告日2016-07-27

原文格式PDF
申请/专利权人浙江工业大学;
展开▼

申请/专利号CN201610121504.8
发明设计人张贵军;周晓根;俞旭锋;郝小虎;王柳静;徐东伟;李章维;
展开▼

申请日2016-03-03
分类号G06F19/18(20110101);
代理机构33241 杭州斯可睿专利事务所有限公司;
代理人王利强
地址 310014 浙江省杭州市下城区朝晖六区潮王路18号浙江工业大学
入库时间 2023-06-19 00:12:25

法律信息

法律状态公告日

法律状态信息

法律状态
2018-06-01

授权

授权
2016-08-24

实质审查的生效 IPC(主分类):G06F19/18 申请日:20160303

实质审查的生效
2016-07-27

公开

公开

说明书

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于阶段性多策略的群体构象空间采样方法。

背景技术

生物细胞中有许多蛋白质(由2多种氨基酸所形成的长链)，这些大分子在生物体中起着重要作用，对于完成生物功能至关重要。蛋白质分子在分子水平上反应了其结构与功能之间的重要关系，不同的蛋白质在生物体中起着不同的作用。蛋白质的空间结构往往决定了其功能，因此，蛋白质结构的预测对新蛋白的设计、药物设计、蛋白质稳定性预测以及蛋白质之间的相互作用建模至关重要。

蛋白质的结构一般分为四个层次：一级结构(氨基酸序列)、二级结构(骨架原子间的相互作用形成的局部结构)、三级结构(二级结构在大范围内堆积形成的空间结构)和四级结构(描述不同亚基之间的相互作用)。尤其是，蛋白质的三维结构(天然态结构)是了解蛋白质的生物功能的关键。蛋白质三维结构可以通过核磁共振和X光晶体衍射等实验方法得到，然而这些实验测定方法不仅耗时而且极其昂贵，对于某些不易结晶的蛋白质来说不适用。因此，根据的Anfinsen的热力学假说(具有最低能量的构象被认为是天然态结构)，很多计算算法被提出用于蛋白质结构预测。

通过计算技术进行蛋白结构预测通常涉及一个评价代价极高的能量函数，其能量函数曲面通常具有成千上万的自由度和大量的局部最优解。在如此巨大的高维构象空间中进行采样极其困难。为了进行构象空间搜索，从头预测方法通常首先根据基于知识的粗粒度能量模型获得构象空间的全局最小解，然后对其对应的构象进行精修，从而得到预测结构。因此，从头预测方法需要解决两个问题：1.建立合适的能量函数来衡量蛋白质分子中不同原子的之间的相互作用；2.提出有效的构象空间搜索方法来搜索能量全局最小解。

差分进化算法(DE)已被证明是进化算法中最简单且强大的随机性全局优化算法。由于其结构简单，易于实现，鲁棒性强和收敛速度快等优点已被成功应用于蛋白结构预测。然而，随着氨基酸序列的增长，蛋白质分子体系自由度也增大，利用传统群体算法采样获得大规模蛋白质构象空间的全局最小解成为一项挑战性的工作；传统群体进化算法在对构象空间采样时，在前期能够很快定位到最小解所在的区域，但是后期由于局部增强能力较弱，收敛速度较慢，而且很容易陷入局部最优，无法得到全局最小解。

因此，现有的群体构象空间采用方法在采样能力及收敛速度方面存在不足，需要改进。

发明内容

为了克服现有群体构象空间采样方法的在采样能力和收敛速度方面的不足，本发明提供一种提升采样能力、提高收敛速度、提高预测精度的基于阶段性多策略的群体构象空间采样方法。

本发明解决其技术问题所采用的技术方案是：

一种基于阶段性多策略的群体构象空间采样方法，所述采样方法包括以下步骤：

1)给定输入序列信息；

2)根据序列信息从QUARK服务器(http://zhanglab.ccmb.med.umich.edu/QUARK/) 上得到距离谱文件profile，rp_i为距离谱中记录下的残基对，D_i为该残基对之间的距离，其中i∈(1,N)，N为距离谱中残基对数量；

3)设置参数：种群大小NP，算法的迭代次数G，交叉因子CR，阶段因子s，置迭代代数g＝0；

4)种群初始化：由输入序列产生NP个初始构象C_i，i＝{1,…,NP}，对每个构象个体全部位置片段组装；

5)针对种群中的每个构象个体C_i，i∈{1,2,3,…,NP}，令C_target＝C_i，C_target表示目标构象个体，执行以下操作得到变异构象C_mutant：

5.1)随机生成正整数rand1,rand2,rand3∈{1,2,3,......NP}，且rand1≠rand2≠ rand3≠i；再生成4个随机整数randrange1,randrange2,randrange3, randrange4；其中randrange1≠randrange2，randrange3≠randrange4∈ {1,2,…,L},L为序列长度；

5.2)令a＝min(randrange1,randrange2)，b＝max(randrange1,randrange2)， k∈[a,b]；令c＝min(randrange3,randrange4)，d＝max(randrange3, randrange4)，p∈[c,d]；其中min表示取两个数的最小值，max表示取两个数的最大值

5.3)如果g＜s·G，则执行如下操作：

5.3.1)如果randn(1,3)＝1，则用C_rand2上位置a到位置b的片段的氨基酸 k所对应的二面角phi、psi、omega替换C_rand1的相同位置所对应的二面角phi、psi、omega，然后将所得C_rand1进行片段组装得到变异构象C_mutant，其中randn(1,3)表示随机生成[1,3]之间的整数；

5.3.2)如果randn(1,3)＝2，则用C_rand2上位置a到位置b的片段的氨基酸 k所对应的二面角phi、psi、omega替换C_rand1的相同位置所对应的二面角phi、psi、omega；再使用C_rand3上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C_rand1上相同位置所对应的二面角phi、psi、omega，然后将所得C_rand1进行片段组装得到测试个体C_mutant；

5.3.3)如果randn(1,3)＝3，则用C_rand1上位置a到位置b的片段的氨基酸 k所对应的二面角phi、psi、omega替换C_target的相同位置所对应的二面角phi、psi、omega；再使用C_rand2上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C_target上相同位置所对应的二面角phi、psi、omega，然后将所得C_target进行片段组装得到测试个体C_mutant；

5.4)如果s·G≤g＜2s·G，则执行如下操作：

5.4.1)根据能量对整个种群中的构象进行升序排列，然后从前0.5NP个构象个体中随机选出一个构象记为C_pbest；

5.4.2)如果randn(1,3)＝1，则用C_rand1上位置a到位置b的片段的氨基酸 k所对应的二面角phi、psi、omega替换C_pbest的相同位置所对应的二面角phi、psi、omega，然后将所得C_pbest进行片段组装得到变异构象C_mutant；

5.4.3)如果randn(1,3)＝2，则用C_pbest上位置a到位置b的片段的氨基酸 k所对应的二面角phi、psi、omega替换C_rand1的相同位置所对应的二面角phi、psi、omega；再使用C_rand2上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C_rand1上相同位置所对应的二面角phi、psi、omega，然后将所得C_rand1进行片段组装得到测试个体C_mutant；

5.4.4)如果randn(1,3)＝3，则用C_pbest上位置a到位置b的片段的氨基酸 k所对应的二面角phi、psi、omega替换C_target的相同位置所对应的二面角phi、psi、omega；再使用C_rand1上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C_target上相同位置所对应的二面角phi、psi、omega，然后将所得C_target进行片段组装得到测试个体C_mutant；

5.5)如果g≥2s·G，则执行如下操作：

5.5.1)将整个种群随机平均分为三组，判断当前目标构象C_target所在的组，然后从对应的组中选出能量最低的构象C_lbest；

5.5.2)如果randn(1,3)＝1，则用C_rand1上位置a到位置b的片段的氨基酸 k所对应的二面角phi、psi、omega替换C_pbest的相同位置所对应的二面角phi、psi、omega，然后将所得C_pbest进行片段组装得到变异构象C_mutant；

5.5.3)如果randn(1,3)＝2，则用C_lbest上位置a到位置b的片段的氨基酸k 所对应的二面角phi、psi、omega替换C_rand1的相同位置所对应的二面角phi、psi、omega；再使用C_rand2上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C_rand1上相同位置所对应的二面角phi、psi、omega，然后将所得C_rand1进行片段组装得到测试个体C_mutant；

5.5.4)如果randn(1,3)＝3，则用C_lbest上位置a到位置b的片段的氨基酸k 所对应的二面角phi、psi、omega替换C_target的相同位置所对应的二面角phi、psi、omega；再使用C_rand1上位置c到位置d的片段的氨基酸p所对应的二面角phi、psi、omega替换C_target上相同位置所对应的二面角phi、psi、omega，然后将所得C_target进行片段组装得到测试个体C_mutant；

6)对变异构象C_mutant执行交叉操作：

6.1)生成随机数rand4，rand5，其中rand4∈(0,1)，rand5∈(1,L)；

6.2)根据 $C_{t r a i l} = (\begin{matrix} C_{m u \tan t, r a n d 5} \leftarrow C_{t \arg e t, r a n d 5}, & i f (r a n d 4 \leq C R) \\ C_{m u \tan t, r a n d 5}, & o t h e r w i s e \end{matrix})$ 执行交叉过程：若随机数rand4≤CR，变异构象C_mutant的片段rand5替换为目标构象C_target中对应的片段，否则直接等于变异构象C_mutant；

7)对目标构象C_target和测试构象C_trail进行选择操作；

7.1)计算C_target和C_trail的能量：E(C_target)和E(C_trail)；

7.2)若E(C_target)>E(C_trail)，则C_trail替换C_target，且转到步骤8)，否则继续执行步骤7.3)；

7.3)分别计算目标构象C_target和测试构象C_trail中残基对rp_i之间的距离与距离谱中对应的距离之间的距离差和

7.4)判断和的值是否大于6，若大于6，则令其等于6，去除一些距离差值较大的异常数值；

7.5)分别计算目标构象和测试构象中所有残基对之间的距离与距离谱中距离之差的平均值， $▿ D_{t \arg e t} = \frac{1}{N} Σ_{i = 1}^{N} ▿ D_{i}^{t \arg e t}, ▿ D_{t r a i l} = \frac{1}{N} Σ_{i = 1}^{N} ▿ D_{i}^{t r a i l};$

7.6)若▽D_trail＞▽D_target，则转到步骤8)；

7.7)若▽D_trail＜▽D_target，则产生一个(0,1)之间的随机数rand6，若rand6小于 0.2，则用C_trail替换C_target，否则进入步骤8)；

8)i＝i+1；判断i是否大于等于NP，如果是则g＝g+1，否则进入步骤9)；

9)迭代的运行步骤5)～7)，至满足终止条件。

本发明的技术构思为：在差分进化算法框架下，将整个算法过程分为多个阶段，对每个阶段设置一组策略池，当算法达到某个阶段时，从其对应的策略池中，随机选取一个策略，基于片段组装技术，生成新的测试构象个体，从而提高构象采样能力和算法的收敛速度；同时在构象选择环节引入距离谱约束，当测试构象的能量高于目标构象时，则比较两者的距离差，若测试个体的距离差较小，则以一定的概率接受测试构象，从而引导算法采样得到能量更低且结构更合理的构象，提高算法的预测精度。

本发明在基本差分进化算法框架下，基于片段组装技术，在算法各阶段设置不同的新构象生成策略池，然后从策略池中随机选取一个生成新构象，来提高算法的收敛速度和可靠性，同时在选择环节加入距离约束，引导算法在能量低且结构合理的区域进行采样，从整体上提高算法的采样能力，从而提高预测精度。

本发明的有益效果为：基于片段组装技术，在算法的各阶段采用不同的构象生成策略，提高算法的收敛速度和构象采样能力；距离谱作为辅助约束引入选择环节，引导算法采样得到高质量的构象。

附图说明

图1是基于阶段性多策略的群体构象空间采样方法对蛋白质1AIL进行采样时的构象更新示意图。

图2是基于阶段性多策略的群体构象空间采样方法蛋白质1AIL采样时得到的构象分布图；

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～2，一种基于阶段性多策略的群体构象空间采样方法，包括以下步骤：

1)给定输入序列信息；

3)设置参数：种群大小NP，算法的迭代次数G，交叉因子CR，阶段因子s，置迭代代数g＝0；

4)种群初始化：由输入序列产生NP个初始构象C_i，i＝{1,…,NP}，对每个构象个体全部位置片段组装；

5)针对种群中的每个构象个体C_i，i∈{1,2,3,…,NP}，令C_target＝C_i，C_target表示目标构象个体，执行以下操作得到变异构象C_mutant：

5.3)如果g＜s·G，则执行如下操作：

5.3.1)如果randn(1,3)＝1，则用C_rand2上位置a到位置b的片段的氨基酸 k所对应的二面角phi、psi、omega替换C_rand1的相同位置所对应的二面角phi、psi、omega，然后将所得C_rand1进行片段组装得到变异构象C_mutant，其中randn(1，3)表示随机生成[1,3]之间的整数；

5.4)如果s·G≤g＜2s·G，则执行如下操作：

5.4.1)根据能量对整个种群中的构象进行升序排列，然后从前0.5NP个构象个体中随机选出一个构象记为C_pbest；

5.5)如果g≥2s·G，则执行如下操作：

5.5.1)将整个种群随机平均分为三组，判断当前目标构象C_target所在的组，然后从对应的组中选出能量最低的构象C_lbest；

6)对变异构象C_mutant执行交叉操作：

6.1)生成随机数rand4，rand5，其中rand4∈(0,1)，rand5∈(1,L)；

7)对目标构象C_target和测试构象C_trail进行选择操作；

7.1)计算C_target和C_trail的能量：E(C_target)和E(C_trail)；

7.2)若E(C_target)>E(C_trail)，则C_trail替换C_target，且转到步骤8)，否则继续执行步骤7.3)；

7.3)分别计算目标构象C_target和测试构象C_trail中残基对rpi之间的距离与距离谱中对应的距离之间的距离差和

7.4)判断和的值是否大于6，若大于6，则令其等于6，去除一些距离差值较大的异常数值；

7.6)若▽D_trail＞▽D_target，则转到步骤8)；

7.7)若▽D_trail＜▽D_target，则产生一个(0,1)之间的随机数rand6，若rand6小于 0.2，则用C_trail替换C_target，否则进入步骤8)；

8)i＝i+1；判断i是否大于等于NP，如果是则g＝g+1，否则进入步骤9)；

9)迭代的运行步骤5)～7)，至满足终止条件。

本实施例以序列长度为73的蛋白质1AIL为实施例，一种基于阶段性多策略的群体构象空间采样方法，其中包含以下步骤：

1)给定蛋白质1AIL的序列信息；

2)根据序列信息从QUARK服务器(http://zhanglab.ccmb.med.umich.edu/QUARK/) 上得到距离谱文件profile，rp_i为距离谱中记录下的残基对，D_i为该残基对之间的距离，其中i∈(1,N)，N＝75为距离谱中残基对数量；

3)设置参数：种群大小NP＝30，算法的迭代次数G＝10000，交叉因子CR＝0.5，阶段因子s＝1/3，置迭代代数g＝0；

4)种群初始化：由输入序列产生NP个初始构象C_i，i＝{1,…,NP}，对每个构象个体全部位置片段组装；

5)针对种群中的每个构象个体C_i，i∈{1,2,3,…,NP}，令C_target＝C_i，C_target表示目标构象个体，执行以下操作得到变异构象C_mutant：

5.3)如果g＜s·G，则执行如下操作：

5.4)如果s·G≤g＜2s·G，则执行如下操作：

5.4.1)根据能量对整个种群中的构象进行升序排列，然后从前0.5NP个构象个体中随机选出一个构象记为C_pbest；

5.5)如果g≥2s·G，则执行如下操作：

5.5.1)将整个种群随机平均分为三组，判断当前目标构象C_target所在的组，然后从对应的组中选出能量最低的构象C_lbest；

5.5.3)如果randn(1,3)＝2，则用C_lbest上位置a到位置b的片段的氨基酸k 所对应的二面角phi、psi、omega替换C_rand1的相同位置所对应的二面角phi、psi、omega；再使用C_rand2上位置c到位置d的片段的氨基酸所p对应的二面角phi、psi、omega替换C_rand1上相同位置所对应的二面角phi、psi、omega，然后将所得C_rand1进行片段组装得到测试个体C_mutant；

6)对变异构象C_mutant执行交叉操作：

6.1)生成随机数rand4，rand5，其中rand4∈(0,1)，rand5∈(1,L)；

7)对目标构象C_target和测试构象C_trail进行选择操作；

7.1)计算C_target和C_trail的能量：E(C_target)和E(C_trail)；

7.2)若E(C_target)>E(C_trail)，则C_trail替换C_target，且转到步骤8)，否则继续执行步骤7.3)；

7.3)分别计算目标构象C_target和测试构象C_trail中残基对rpi之间的距离与距离谱中对应的距离之间的距离差和

7.4)判断和的值是否大于6，若大于6，则令其等于6，去除一些距离差值较大的异常数值；

7.6)若▽D_trail＞▽D_target，则转到步骤8)；

7.7)若▽D_trail＜▽D_target，则产生一个(0,1)之间的随机数rand6，若rand6小于 0.2，则用C_trail替换C_target，否则进入步骤8)；

8)i＝i+1；判断i是否大于等于NP，如果是则g＝g+1，否则进入步骤9)；

9)迭代的运行步骤5)～7)，至迭代次数G＝10000次为止。

以序列长度为73的蛋白质1AIL为实施例，运用以上方法得到了该蛋白质的近天然态构象，运行30次所得到的结构与天然态结构之间的平均均方根偏差为 3.75，最小均方根偏差为2.83，构象系综中构象更新图如图1所示，采样得到的构象分布图如图2所示。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于阶段性多策略的群体构象空间采样方法 [P] . 中国专利： CN105808973B . 2018.06.01
2. 一种基于阶段性多策略的群体构象空间采样方法 [P] . 中国专利： CN105808973A . 2016-07-27
3. polypeptide; fusion polypeptide; polynucleotide; population of polypeptide variants based on a common scaffold; polynucleotide population; combination of a polypeptide population; and methods for selecting a desired polypeptide having a predetermined target affinity from a polypeptide population; isolating a polynucleotide encoding a desired polypeptide having an affinity for a predetermined target; identifying a desired polypeptide having an affinity for a predetermined target; and selecting and identifying a desired polypeptide having a predetermined target affinity from a population of polypeptides. [P] . BR112016003336A2 . 2017-11-21

机译：多肽融合多肽多核苷酸基于共同支架的多肽变体群体;多核苷酸群体;多肽群体的组合;和从多肽群体中选择具有预定靶亲和力的所需多肽的方法;分离编码对预定靶标具有亲和力的所需多肽的多核苷酸;鉴定对预定靶标具有亲和力的所需多肽;从多肽群中选择和鉴定具有预定靶亲和力的所需多肽。
4. A MAP-LESS AND CAMERA-BASED LANE MARKINGS SAMPLING METHOD FOR LEVEL-3 AUTONOMOUS DRIVING VEHICLES [P] . US2021188285A1 . 2021-06-24

机译：一种额外的基于相机的基于相机的车道标记采样方法，适用于3级自主驾驶车辆
5. METHOD AND SYSTEM FOR MEDIATING USES OF SMART DEVICES OF GROUP USERS BY UTILIZING LOCATION-BASED VIRTUAL SELF-CONTROL SPACE [P] . 美国专利： US2017099383A1 . 2017-04-06

机译：利用基于位置的虚拟自我控制空间调解群体用户智能设备的方法和系统