首页> 中国专利> 基于受体和配体的药物虚拟筛选的方法及系统

基于受体和配体的药物虚拟筛选的方法及系统

摘要

本发明涉及基于受体和配体的药物虚拟筛选的方法及系统,该方法包括以下步骤:(1)获取靶标受体的活性数据,所述受体的活性数据用于分子对接;(2)获取所述靶标受体的配体及其活性数据,以构建配体结构库;(3)处理所述配体结构库中的配体的活性数据,以得到所述配体的分子指纹;(4)将所述靶标受体与所述配体结构库中的配体进行分子对接,然后进行分子动力学模拟,再进行能量分解以得到能量分解值;(5)按比例选取所述分子指纹与所述能量分解值进行特征融合,根据机器学习算法建立模型;以及(6)利用所述模型进行药物虚拟筛选。本发明的药物筛选方法和系统成本低、效率高,在药物的活性预测、结构优化和设计领域具有广阔的应用前景。

著录项

  • 公开/公告号CN113808683A

    专利类型发明专利

  • 公开/公告日2021-12-17

    原文格式PDF

  • 申请/专利权人 深圳市绿航星际太空科技研究院;

    申请/专利号CN202111029529.2

  • 发明设计人 高敏;熊江辉;陈颖;辛冰牧;许楫;

    申请日2021-09-02

  • 分类号G16C20/70(20190101);G16C10/00(20190101);

  • 代理机构44202 广州三环专利商标代理有限公司;

  • 代理人郝传鑫;周全英

  • 地址 518116 广东省深圳市龙岗区坪地高桥工业园工业三路龙口工业园2#、5#厂房及宿舍

  • 入库时间 2023-06-19 13:45:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-01-04

    实质审查的生效 IPC(主分类):G16C20/70 专利申请号:2021110295292 申请日:20210902

    实质审查的生效

说明书

技术领域

本发明属于计算机辅助药物设计技术领域,尤其设计基于受体和配体的药物虚拟筛选的方法和系统。

背景技术

药物研发是一项研发周期长、资金消耗大的高投入,低产出的系统工程。据报道,一个新药从概念化、先导结构确定、先导结构优化、临床前及临床实试验、上市,周期为10-15年,投入资金约8亿美元,并且该投入随着药物研发难度的增加,仍在不断提高,根据塔夫茨药物研发中心(Tufts Center for the Study of Drug Development,CSDD)2014年的报告,药物研发投入资金已经高达25.58亿美元。尽管在新药研发的投入上不断增加,每年全世界产生的新药数目却呈现一个不断减低的趋势。1996年FDA批准上市的新药为53个,2007年低至15个。随着计算机辅助药物设计在药物发现中的作用不断增加,一些大型的制药企业和研究机构也开始进行相关的理论和应用研究。至今,已经产生很多应用计算机辅助方法成功研发新药的范例。但是,计算机辅助药物设计方法还在发展阶段、存在诸多不足,例如靶蛋白晶体结构不宜获取、模型预测准确率较低等。因此,本领域仍然需要新的药物虚拟筛选来提高筛选效率和降低筛选成本。

发明内容

本发明的目的在于克服现有药物筛选技术的缺陷而提供一种基于受体和配体的药物虚拟筛选的方法和系统,本发明的药物筛选的方法具有成本低、效率高的优点,该方法在药物的活性预测、结构优化和设计领域具有广阔的应用前景。

本发明在一方面提供一种基于受体和配体的药物虚拟筛选的方法,包括以下步骤:(1)获取靶标受体的活性数据,所述受体的活性数据用于分子对接;(2)获取所述靶标受体的配体及其活性数据,构建配体结构库;(3)处理所述配体结构库中的配体的活性数据,以得到所述配体的分子指纹;(4)使用分子对接软件将所述靶标受体与所述结构库中的配体进行分子对接,然后进行分子动力学模拟,再进行能量分解以得到能量分解值;(5)按比例选取所述分子指纹与所述能量分解值进行特征融合,根据机器学习算法建立模型;以及(6)利用所述模型进行药物虚拟筛选。该药物的虚拟筛选的方法在传统分子对接的基础上,将吉布斯自由能进行分解,使其转化成可被学习的特征值;并且将基于受体的药物筛选技术与基于配体的2D和3D分子指纹相结合,使两种技术优势互补,从而高效的表征不同活性配体分子集合的特点,从而训练准确度较高的药物筛选模型。

在一些实施方式中,所述靶标受体的活性数据包括所述靶标受体的晶体结构,所述晶体结构分辨率低于2埃。该分辨率可保证结构错误的侧链摆放、错误的环状结构出现的概率保持在较低水平。

在一些实施方式中,所述配体及所述配体的活性数据获得自ChEMBL数据库。在一些实施方式中,所述靶标受体的活性数据获得自Protein Data Bank(PDB)数据库。

在一些实施方式中,所述配体的活性数据包括IC

在一些实施方式中,所述分子指纹为2D分子指纹和/或3D分子指纹。优选地,所述2D分子指纹为MACCS、RDkit和/或ECFP;所述3D分子指纹为ESshiape。

在一些实施方式中,所述步骤(4)中,所述分子对接软件为DOCK软件,选取打分最高的构象用于分子动力学模拟。在一些实施方式中,所述分子对接软件为DOCK软件,在MMFF99X力场中进行3D质子化,使整个系统中末端酰胺、羟基、硫醇、组氨酸和可滴定基团不同状态的总体最低势能配置;以蛋白晶体中的原始配体为参考形成蛋白空腔,通过刚性蛋白、柔性分子的方式实现,配体构象通过键旋转法生成,再使用Triangle Matcher method方法放置到对接位点中,保留10个构象,选取打分最高的构象(即,最优构象)进行分子动力学模拟及计算。

在一些实施方式中,所述步骤(4)中,所述分子动力学模拟中,通过进行两步能量最小化,使用选择MM/GBSA方法计算体系的结合自由能。在一些实施方式中,所述步骤(4)中,分子动力学模拟过程中,使用10埃为截断距离为复合物添加截断八面体水盒子,进行两步能量最小化:第一步以500kcal/mol的力限制蛋白氨基酸残基,优化溶剂进行5000步能量优化,前2500步循使用最陡下降法,后2500步切换共轭梯度法;第二步将整个体系进行优化:以10埃为非键合相互作用的截断距离;使用恒定体积的周期性边界;为了体系实现更好的能量收敛,不执行体系震动;最小化方法将在2500步循环后从最陡下降法切换为共轭梯度法,计算出完整的相互作用力。使用选择MM/GBSA方法计算体系的结合自由能,具体算法如下:

ΔG

其中,ΔGb是溶剂中的结合自由能;ΔEMM是分子力学能,由配体和蛋白质之间的静电和范德华相互作用能(ΔEintele和ΔEvdwint)组成;ΔGsol是溶剂化能,可分为对溶剂化自由能的静电作用和疏水作用(ΔGele溶胶和ΔGnonpol溶胶)。该技术方案利用两步能量最小化进行体系优化,使整个复合物体系处在一个优势能量状态,并将吉布斯自由能进行分解,使其转化成可被学习的特征值。该药物虚拟筛选的方法在传统分子对接的基础上,利用两步能量最小化进行体系优化,使整个复合物体系处在一个优势能量状态,并将吉布斯自由能进行分解,使其转化成可被学习的特征值。

在一些实施方式中,所述配体为所述靶标受体的激动剂或拮抗剂。在一些实施方式中,步骤(5)选取比例为5%~100%;优选地,选取比例为40%-100%

在一些实施方式中,所述机器学习算法为随机森林法,所述模型为SVM模型,以4∶1或7∶3的比例将激动剂样本和拮抗剂样本随机分成训练集和测试集,采取RBF核函数:

K

X

本发明在另一方面提供一种基于受体和配体的药物虚拟筛选的系统,所述药物虚拟筛选系统包括:A.靶标受体数据获取模块,其用于获取靶标受体的活性数据;B.配体数据获取模块,其用于获取所述靶标受体的配体以及所述配体的活性数据,其中所述配体的活性数据包含所述配体的分子指纹;C.分子指纹获取模块,其用于处理所述配体结构库中的配体的活性数据,以得到所述配体的指纹;D.分子对接及动力学模拟模块,其用于将所述靶标受体与所述配体进行分子对接,然后进行分子动力学模拟,进行能量分解,以得到能量分解值;E.训练模块,其用于按比例所述分子指纹与所述能量分解值进行特征融合,根据机器学习算法建立模型;以及F.药物虚拟筛选模块,用于根据所述模型虚拟筛选药物。该药物的虚拟筛选的方法在传统分子对接的基础上,将吉布斯自由能进行分解,使其转化成可被学习的特征值;并且将基于受体的药物筛选技术与基于配体的2D和3D分子指纹相结合,使两种技术优势互补,从而高效的表征不同活性配体分子集合的特点,从而训练准确度较高的药物筛选模型。

在一些实施方式中,所述机器学习算法为随机森林法,所述模型为SVM模型,以4∶1或7∶3的比例将所述配体结构库中的激动剂样本和拮抗剂样本随机分成训练集和测试集,采取RBF核函数:

K

X

相比较于传统的方法,本发明的有益效果包括:(1)在传统分子对接的基础上,利用两步能量最小化进行体系优化,使整个复合物体系处在一个优势能量状态,并将吉布斯自由能进行分解,使其转化成可被学习的特征值;和/或(2)将基于受体的药物筛选技术与基于配体的2D和3D分子指纹相结合,使两种技术优势互补,从而高效的表征不同活性配体分子集合的特点,从而训练准确度较高的药物筛选模型。

附图说明

图1.本发明的药物虚拟筛选的方法的流程图。

图2.IED方法选择判别模型建模结果统计图。

图3.四种分子指纹方法选择判别模型建模结果统计图。

具体实施方式

为更好的说明本发明的目的、技术方案和优点,下面将结合具体实施例对本发明作进一步说明。

为了更好地理解本发明,下面提供相关的解释和说明。

术语"ChEMBL”指活性配体数据库。

术语“Protein Data Bank(PDB)”指蛋白晶体结构数据库。

术语“Random Forest(RF)为随机森林方法。

术语“分子指纹”是指一种分子的抽象表征,它将分子转化(编码)为一系列比特串(即比特向量,bit vector),然后可以很容易地在分子之间进行比较。典型的流程是将提取分子的结构特征、然后哈希(Hashing)生成比特向量活性药物:能够治疗疾病的药物,即该药物对该疾病有活性。

术语“Support Vector Machine(SVM)”:支持向量机方法。

术语“能量分解值”指靶标受体与配体进行分子对接、分子动力学模拟并进行能量分解后的靶标受体中的各个氨基酸残基及配体分子分解得到的能量值。

实施例1.使用本发明的方法建立维生素D受体(VDR)的药物筛选模型

A.基于结构的选择判别模型构建(SBDD)

1)获取靶标蛋白结构:a.VDR蛋白晶体结构在PDB数据库中获取,其中VDR蛋白晶体结构分辨率低于2埃,该分辨率可保证结构错误的侧链摆放、错误的环状结构出现的概率保持在较低水平;

2)分别在ChEMBL数据库中获取VDR受体激动剂、抑制剂数据集合,并构建其结构库;其中,获取配体分子或行为IC

3)使用DOCK软件将获取的VDR蛋白结构与结构库中的配体分子进行分子对接,在MMFF99X力场中进行3D质子化,使整个系统中末端酰胺、羟基、硫醇、组氨酸和可滴定基团不同状态的总体最低势能配置,以蛋白晶体中的原始配体为参考形成蛋白空腔,通过刚性蛋白、柔性分子的方式实现,配体构象通过键旋转法生成,再使用Triangle Matcher method方法放置到对接位点中,保留10个构象,选取打分最高的构象(即,获取与靶标结合的最优配体构象,随后将最优配体构象依次与靶标蛋白整合)进行分子动力学模拟,分子动力学模拟过程中使用10埃为截断距离为复合物添加截断八面体水盒子,进行两步能量最小化:第一步以500kcal/mol的力限制蛋白氨基酸残基,优化溶剂进行5000步能量优化,前2500步循使用最陡下降法,后2500步切换共轭梯度法;第二步将整个体系进行优化。以10埃为非键合相互作用的截断距离;使用恒定体积的周期性边界;为了体系实现更好的能量收敛,不执行体系震动;最小化方法将在2500步循环后从最陡下降法切换为共轭梯度法,计算出完整的相互作用力。使用选择MM/GBSA方法计算体系的结合自由能.具体算法如下:

ΔG

其中ΔGb是溶剂中的结合自由能;ΔEMM是分子力学能,由配体和蛋白质之间的静电和范德华相互作用能(ΔEintele和ΔEvdwint)组成;ΔGsol是溶剂化能,可分为对溶剂化自由能的静电作用和疏水作用(ΔGele溶胶和ΔGnonpol溶胶),并计算蛋白与配体的结合自由能(MM-GBAS),以靶标结合腔5A范围内的氨基酸残基为参数,进行能量分解,能量分解时保留所有氨基酸残基能量值及配体分子分解能量值,确保有效特征全部用于后续模型建立;

4)使用机器学习方法RF,以基于靶标-配体复合物的分子对接、分子动力学所获取的能量分解值为特征值,按比例(5%、10%、20%、40%、60%、80%或100%)选取特征值,构建基于VDR受体的激动剂/拮抗剂SVM选择判别模型。

结果:

在基于结构的研究中,通过分子对接,获取维生素D受体与活性配体的最佳结合构象,通过分子动力学模拟,实现结合体系优化并计算配体与受体的结合自由能并进行能量分解,以受体中各个氨基酸残基及配体分子所分解得到的能量值为特征进行SVM选择判别模型构建。该方法在本文中命名为相互作用能量分解法(Interaction EnergyEecomposition method,IED)。

经过相似性筛选和随机森林筛选特征值后保留了5个重要特征值,按照建模流程以5%、10%、20%、40%、60%、80%、100%个特征分别建模,由于选择5%-20%只有一个特征,模型未能预测出MCC值,最终只展示40%以上的特征建模结果。IED方法建模结果如图2所示,模型在不同IED特征数目下训练集交叉验证和测试集的统计结果。

模型在选用40%的特征(2个特征)时交叉验证的AUC、总体预测准确率Qtotal均不足0.7,且敏感性SE和MCC偏低,取值均在0.2左右。随着特征数目的增加到100%(5个特征),AUC升高至0.8以上,Qtotal接近于0.8,SE和MCC值均达到0.5以上。SP随着特征数的增多变化不大,一直维持在0.9左右。由以上建模结果可以看出,IED方法所计算并选取的特征值能够很好的反映出EC

B.基于配体的选择判别模型构建(LBDD)

基于配体的方法通常也使用各种分子描述符。它们是由化合物的二维(2D)结构(2D描述符)产生的,或者它们使用它们的空间方向,或者仅通过配体的最小化或使用对接构成三维(3D)描述符获得。

1)将上文“A.基于结构的选择判别模型构建(SBDD)”步骤2)的结构库中的化学结构转化为可通过计算机方法处理的形式。捕获化学信息最常用的方法是应用数字描述符或指纹。数字描述符表征化合物的物理化学性质,这些描述符的实例如下:分子量、辛醇水分配系数(logP)、pKa、氢键供体数、氢键受体数、原子数特定类型、特定类型的键数、原子电荷、极性、分子体积等。指纹是化合物转换成位串形式的结果,本研究采用基于键的指纹识别方式,注释分子中特定化学部分的存在(1)或不存在(0)来获取分子指纹。

2)使用机器学习方法RF,以基于配体分子结构获取的分子指纹为特征值,按比例(5%、10%、20%、40%、60%、80%或100%)选取特征值,构建VDR受体的激动剂/拮抗剂选择判别模型。

结果:

在维生素D受体基于配体的选择判别模型构建中,分别采用三种典型的2D分子指纹方法,基于子结构的分子指纹(MACCS指纹)、基于拓扑或路径的分子指纹(RDKit指纹)、圆形哈希拓扑指纹(ECFP指纹)和一种3D分子指纹(ESshape3D指纹)计算活性配体特征并构建模型。

MACCS指纹建模结果如图3A所示,随着特征数的增加,AUC值和Qtotal由0.8左右上升到0.95以上,SE和MCC值由0.6左右上升到0.9以上,SP由0.9左右上升到1。RDKit指纹建模结果如图3B所示,除了在选取20%和40%特征时,各项指标均保持在0.97到1之间。ECFP指纹建模结果如图3C所示,随着特征数的增加,建模结果的各项数值均较为稳定,AUC值稳定在0.97以上水平,SE值有小范围的波动,数值范围在0.86到0.91左右,SP也有一定的波动,数值范围在0.95到1之间,Qtotal由0.93左右上升到0.95左右,MCC值介于0.87到0.91之间。ESshape3D指纹建模结果如图3D所示,随着特征数的增加,AUC值由0.8左右上升到0.87,SE值由0.5左右上升到0.77左右,SP有一定的波动,数值范围在0.8到0.9左右,Qtotal由0.72左右上升到0.8左右,MCC值由0.36上升到0.59左右。以上结果可以看出,RDKit指纹模型效果最好,ECFP指纹和MACCS指纹模型效果次之,ESshape3D指纹模型效果相对以上三种指纹模型略差。

C.建立本发明的模型

将基于结构的IDE方法获取的特征值(描述符)分别与ECFP、MACCS和ESshape3D三种基于配体方法获取的描述符融合后重新构建模型,该方法获得的模型融合了基于结构能量分解的方法获得的特征信息和基于配体结构获取的特征信息,本申请称之为E-QSAR方法。采用随机森林算法,按比例选取特征值,建立多个特征融合SVM模型,该SVM模型以4∶1或者7∶3的比例将激动剂样本和拮抗剂样本随机分成训练集和测试集,采取RBF核函数,具体为:

K

X

结果:

由表1可以看出,特征融合后的E-QSAR模型效果与单个方法的模型效果相比均有较大的提高。例如,ECFP+IED模型与ECFP模型相比,Qtotal由0.8945提高到了0.9550;MACCS+IED模型与ECFP模型相比,Qtotal由0.9181提高到了0.9769;ESshape3D+IED模型与ESshape3D模型相比,Qtotal由0.5941提高到了0.7339。除此之外,各组之间的MCC值也均有提高。

表1 E-QSAR方法和单一方法的建模结果。

注:每个方法均展示最大特征数的建模结果。

以核受体家族的维生素D受体为研究对象,从PDB数据库中获取受体结构信息,从ChEMBL数据库中获取活性配体信息,通过分子对接、分子动力学、自由能分解技术及分子指纹计算等基于结构和基于配体两类方法,计算不同小分子配体与核受体之间相互作用的差异值及小分子配体结构特征,分别建立两种方法的核受体的激动剂及拮抗剂的SVM选择判别模型,通过比较两种研究方法所建立模型的准确度,并结合受体与配体各自的优点,建立融合受体能量信息与配体结构特点的选择判别模型。本发明的模型中的特征将不仅用于化学结构表征,而且还用于描述在对接中获得的配体受体复合物的化学结构特征和能量特征。它们将提供有关配体与蛋白质特定氨基酸相互作用的信息,形成结构相互作用指纹图谱,进而构建准确度更高的药物靶标配体选择判别模型。将基于结构的IED方法获取的特征分别与ECFP、MACCS和ESshape3D三种基于配体方法获取的特征融合后重新构建模型(E-QSAR模型),发现特征融合后模型效果与单个方法的模型效果相比均有较大的提高。由此可知,E-QSAR将基于结构和基于配体方法结合构建了性能更好的虚拟筛选模型。本申请提供了一个可靠的、高效的药物筛选模型,为药物(例如内分泌调节药物及抗肿瘤药物)的开发提供一个有效的高通量药物虚拟筛选的工具。

最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号