首页> 中国专利> 用于空间图卷积的系统和方法及其在药物发现和分子模拟中的应用

用于空间图卷积的系统和方法及其在药物发现和分子模拟中的应用

摘要

说明了根据本发明实施例的用于空间图卷积的系统和方法。一个实施例包括一种用于预测分子的特点的方法,其中该方法包括执行与分子集合的空间图表示的图卷积的第一集合,其中图卷积的第一集合基于分子集合之间的键,执行与该空间图表示的图卷积的第二集合,其中图卷积的第二集合至少基于分子集合中每个原子与其它原子之间的距离,用空间图表示执行图聚集以产生特征向量,并基于该特征向量来预测用于分子集合的一个或多个特点的集合。

著录项

  • 公开/公告号CN112533941A

    专利类型发明专利

  • 公开/公告日2021-03-19

    原文格式PDF

  • 申请/专利权人 斯坦福大学托管董事会;

    申请/专利号CN201980027200.7

  • 申请日2019-03-05

  • 分类号C07K14/47(20060101);C12N9/10(20060101);C12N9/12(20060101);

  • 代理机构11038 中国贸促会专利商标事务所有限公司;

  • 代理人周阳君

  • 地址 美国加利福尼亚州

  • 入库时间 2023-06-19 10:18:07

说明书

相关申请的交叉引用

本申请要求于2018年3月5日提交的标题为“Spatial Graph Convolutions withApplications to Drag Discovery”的美国临时专利申请No.62/638,803的优先权权益。美国临时专利申请序列No.62/638,803的公开内容通过引用整体并入本文。

技术领域

本发明一般而言涉及预测分子特点,并且更具体地涉及利用空间图卷积来预测分子特点。

背景技术

大多数FDA批准的药物是有机小分子,其通过与目标生物大分子键合而引起治疗响应。一旦键合,小分子配体就或者抑制其它配体的键合,或者变构地调整目标的构象整体。因此,键合对于治疗性配体的任何行为都是至关重要的。为了最大化分子的治疗效果,必须最大化其对期望目标的亲和力或结合自由能(ΔG),同时最小化其对其它大分子的亲和力。从历史上看,科学家已经使用化学信息学和基于结构的方法来建模配体及其目标,并且大多数机器学习(ML)方法都使用领域专业知识驱动的特征。

发明内容

说明了根据本发明实施例的用于空间图卷积的系统和方法。一个实施例包括一种用于预测分子的特点的方法,其中该方法包括执行与分子集合的空间图表示的图卷积的第一集合,其中图卷积的第一集合基于分子集合之间的键,执行与该空间图表示的图卷积的第二集合,其中图卷积的第二集合至少基于分子集合中每个原子与其它原子之间的距离,用空间图表示执行图聚集以产生特征向量,并基于该特征向量来预测用于分子集合的一个或多个特点的集合。

在另一个实施例中,该方法还包括用于接收用于一个或多个分子的集合的原子信息的步骤。

在又一个实施例中,该方法还包括用于构建分子集合的空间图表示的步骤。

在又一个实施例中,构建空间图表示包括生成距离矩阵和邻接张量,其中距离矩阵表示分子集合的原子之间的距离,并且邻接张量指示原子之间的多个不同边类型。

在又一个实施例中,分子集合包括配体分子和目标分子,其中距离矩阵的行通过配体和目标分子中的成员关系来排序。

在又一个实施例中,分子集合之间的键包括共价键。

在另一个附加实施例中,分子集合之间的键包括π-π堆叠、氢键和疏水性接触中的至少一个。

在另一个附加实施例中,图卷积的第二集合还基于分子集合之间的键。

再次在另一个实施例中,图卷积的第一集合基于分子集合之间的键的第一集合,图卷积的第二集合基于分子集合之间的键的第二集合。

再次在另一个实施例中,键的第一集合是键的第二集合的子集。

在又一个实施例中,执行图卷积的第一集合包括在图卷积的每一层执行门控循环单元(GRU)操作。

在又一个实施例中,执行图卷积的第一集合包括利用第一多个神经网络,其中多个神经网络中的每个神经网络用于不同的键类型。

在又一个附加实施例中,执行图卷积的第二集合包括利用第二多个神经网络,其中第一多个神经网络的权重与第二多个神经网络共享。

在又一个附加实施例中,执行图卷积的第二集合包括利用第二多个神经网络,其中第二多个神经网络的神经网络利用关于分子集合的原子之间的距离的距离信息。

再次在另一个实施例中,分子集合包括配体分子和目标分子,其中图聚集仅对配体分子执行。

再次在又一个实施例中,特点集合包括分子集合中的第一分子是否与分子集合中的第二分子键合。

说明了根据本发明的实施例的用于训练空间卷积图模型的系统和方法。一个实施例包括一种用于训练空间卷积图模型的方法。该方法包括以下步骤:执行与分子集合的空间卷积图模型的图卷积的第一集合,其中图卷积的第一集合基于分子集合之间的键,与该空间卷积图模型执行图卷积的第二集合,其中图卷积的第二集合至少基于分子集合中每个原子与其它原子之间的距离,用空间卷积图模型执行图聚集,基于图聚集计算分子集合的损失,并基于计算出的损失来更新空间卷积图模型。

在又一个附加实施例中,该方法还包括用于使用空间卷积图模型的层来训练一个或多个神经网络的集合以预测力场的一个或多个参数的集合的步骤。

在又一个附加实施例中,参数集合与一个或多个特点的集合相关联,其中该特点集合包括电荷、键、角度和二面角中的至少一个。

再次在又一个实施例中,空间卷积图模型是第一空间卷积图模型,其中该方法还包括训练第二空间卷积图模型以预测势能,并基于第一和第二空间卷积图模型来预测分子系统的势能。

再次在又一个实施例中,训练第二空间卷积图模型包括在第一和第二空间卷积图模型之间共享一个或多个层的集合。

再次在另一个附加实施例中,力场是具有能量精炼的辅助模型构建(AMBER)函数形式。

再次在另一个附加实施例中,该方法还包括使用空间卷积图模型的层来训练一个或多个神经网络的集合以预测输入分子系统的势能的步骤。

在又一另外的实施例中,该方法还包括用于通过最小化由空间图卷积模型预测的势能来识别分子集合的构象集合的步骤。

在另一个实施例中,该方法还包括用于预测分子集合的运动的步骤。

附加的实施例和特征部分地在下面的描述中阐述,并且部分地对于本领域技术人员在阅读本说明书时将变得显而易见,或者可以通过实践本发明而获知。可以通过参考本说明书的其余部分和构成本公开的一部分的附图来实现对本发明的性质和优点的进一步理解。

附图说明

参考以下各图和数据图,将更全面地理解说明书和权利要求,这些图和数据图被呈现为本发明的示例性实施例,并且不应被解释为对本发明范围的完整阐述。

图1图示了门控图神经网络(GGNN)的视觉描绘。

图2图示了根据本发明一些实施例的提供建模和预测的系统。

图3图示了根据本发明一些实施例的提供建模和预测的建模元件。

图4图示了根据本发明一些实施例的提供建模和预测的建模应用。

图5概念性地图示了根据本发明实施例的用于执行分阶段卷积的处理。

图6图示了多阶段空间门控图神经网络的视觉描绘。

图7图示了根据本发明各种实施例的多阶段空间门控图神经网络的第一阶段。

图8图示了根据本发明各种实施例的多阶段空间门控图神经网络的第二阶段。

具体实施方式

根据本发明各种实施例的系统和方法专门设计用于蛋白质配体结合亲和力并实现其最新技术性能。虽然参考键合亲和力描述本申请中的许多实例,但是在不脱离本发明的精神的情况下,可以预测许多分子特点,诸如但不限于毒性、溶解性和电子特性。在许多实施例中,处理利用基于键类型和空间距离的多阶段处理来预测分子特点。在一些实施例中,计算新的度量,回归富集因子

药物发现的弧度带来了跨越广阔规模的多参数优化问题。关键参数的范围从溶解性(埃)到蛋白质-配体键合(纳米)到体内毒性(米)。历史上,科学家已经使用化学信息学和基于结构的方法来建模配体及其目标,并且大多数机器学习(ML)方法都使用领域专业知识驱动的特征。通过特征学习(而不是特征工程),深度神经网络有望胜过传统的基于物理和基于知识的机器学习模型,从而预测与药物发现相关的分子特性。

训练最常规的DNN体系架构要求大量数据:例如,ImageNet当前包含超过14000000个带标签的图像。相比之下,最大的可公开获得的有关类药物分子的特性的数据集包括:PDBBind 2017,其包含略多于4000个蛋白质-配体共晶体结构和相关联键合亲和力值的样本;Tox21,其具有近10000个小分子和相关联毒性终点;QM8,具有约22000个小分子和相关联的电子特性;以及ESOL,其略多于1000个小分子和相关联的溶解性值。高质量科学数据的匮乏需要用于分子机器学习的创新神经体系架构。

成功的DNN常常利用数据中的相关结构,诸如图像中的像素接近度。预测蛋白-配体键合亲和力可以被视为类似于计算机视觉问题。正如相邻像素表示物理对象之间的紧密度一样,可以将键合袋划分为体素网格。在此,相邻的体素表示相邻的原子和空白空间块。遗憾的是,这种3D卷积方法具有若干潜在的缺点。首先,输入和隐藏的权重要求在三个维度上更多的存储器。其次,由于参数随维数呈指数增长,因此模型遭受“维数诅咒”的问题。亲和力预测和相关任务的最简单的定性模型仅结合配体的特征,而忽略了(一个或多个)大分子目标。

图卷积神经网络(GCNN)类似地利用数据的固有结构。通过利用分子结构和对称性,图卷积可以使用较少的参数。图卷积可以对于置换并且对于每个相邻节点的相对位置是对称的,从而显著减少模型参数的数量。根据本发明的若干实施例的模型可以泛化图卷积以包括分子内相互作用和不同分子之间的非共价相互作用。

在若干实施例中,处理可以采用分阶段门控图神经网络,该网络将可微键合原子类型的派生与原子之间的信息通过空间的传播区分开来。根据本发明一些实施例的处理采用基于使用从源到目标原子的距离和目标原子的特征映射的新更新规则的更灵活的模型。在一些蛋白质-配体键合亲和力基准测试中,将目标原子信息直接结合到信息功能中可以增加信号。

在若干实施例中,包含N个节点、每个节点f

在多个实施例中,图卷积更新需要在每个节点处应用函数,该函数将节点及其邻居作为输入并为每个节点输出特征的新集合。图卷积在Gilmer等人的“Neural messagepassing for quantum chemistry”,Proceedings of the 34th InternationalConference on Machine Learning中进行了描述,其公开内容通过引用整体并入本文。图卷积可以写成

其中

在许多实施例中,在模型的所有层处的更新函数是熟悉的门控循环单元(GRU)。但是,本领域技术人员将认识到的是,可以使用其它更新函数而不背离本发明的精神。在一些实施例中,消息函数是简单的线性运算,其对于每种边类型是不同的,但跨层也是相同的:

其中对于边类型e,分别A

GGNN图卷积体系架构系列包括有效的优化,以减少图的复杂性。令d为每个节点内部隐藏表示的维数,并且n为图中节点的数量。用于密集图的消息传递的单个步骤要求

与常规FCNN不同,其学习输入的手工制作的特征的非线性组合,根据本发明一些实施例描述的更新学习给定原子的更基本特征与其直接邻居的特征的非线性组合。信息随着每个图卷积传播通过越来越远的原子,而GRU使信息能够有选择地添加。最终,GCNN经由特征矩阵x包含并充分利用每个节点特征,并经由邻接矩阵A包含并充分利用结构信息。在分类和回归设置中,GCNN都可以终止于“图聚集”步骤,该步骤对最终嵌入的行求和,并且对节点排序是不变的。后续FCNN产生期望尺寸(f

在某些实施例中,可以通过针对每个目标训练不同模型或通过训练单个多任务网络来实现通过GCNN预测对多个目标的亲和力。根据本发明各自实施例的后一种设置可以使用最后权重矩阵

根据本发明许多实施例的系统和方法除了配体之外还充分利用关于目标的结构信息。为了激励用于更多原则性DNN预测器的体系架构,使用以下符号和框架。距离矩阵

到目前为止,如对称矩阵A中所编码的,邻接概念已被严格限制到化学键。但是,邻接也可以涵盖更广泛范围的邻居类型,以包括非共价相互作用(例如,π-π堆叠、氢键、疏水性接触)。邻接不要求领域专业知识。在各种实施例中,也可以使用低于阈值的成对距离。不管采用哪种方案,距离矩阵R都会激励A的扩展版本的构建。在这个框架中,A成为形状为N×N×N

如果行按atom

其中A

除了边类型泛化之外,根据本发明的许多实施例的处理在图卷积层的消息部分中引入了非线性:

其中NN

在若干实施例中,层的概念被泛化为可以跨越给定类型的若干层的阶段的概念。根据本发明一些实施例的方法包括三个主要步骤:(1)仅共价传播,(2)非共价和共价双重传播,以及(3)基于配体的图聚集。更一般地,在一些实施例中,处理基于一个或多个边类型的第一集合来执行第一传播。根据本发明各种实施例的第二阶段可以包括键类型以及与距离矩阵分开的与键信息分开的距离信息。距离信息可以包括(但不限于)具体的物理距离测量值和/或分箱距离。根据本发明各种实施例的第二阶段可以包括所有边类型或边类型的子集。

在某些实施例中,阶段(1)共价传播仅需要邻接矩阵的第一片A

在各种实施例中,基于键合原子的局部网络为系统中的每个原子计算向量值原子类型的新集合。

阶段1:

在许多实施例中,第二阶段需要基于两个完全邻接张量A进行传播,该完全邻接张量A以在(1)中计算出的向量值原子类型

阶段2:

在各种实施例中,在第三阶段(3)中执行图聚集。根据本发明许多实施例的处理仅在配体原子上执行图聚集。

阶段3:

其中i

更一般地,在给定S个阶段并且离散地处理边类型的情况下,可以在以下公式中总结结合边信息、多种边类型、距离信息和阶段的概念。

在根据本发明各种实施方式的一种公式中,每种边类型可以被离散地处理:

阶段1:

阶段S:

其中,例如,K

在根据本发明各种实施例的另一种公式中,边类型可以是灵活的或连续/密集的边类型。

阶段1:

阶段S:

其中,例如,K

在一些实施例中,e

在蛋白质-配体键合的具体情况下,图聚集操作将在S个阶段后定义为:

聚集阶段:

但是,根据本发明的实施例,可以用图中的节点的任何子集替换N

系统和方法

在图2中示出了根据本发明一些实施例提供建模和预测的系统。网络200包括通信网络260。通信网络260是诸如互联网之类的网络,其允许连接到网络260的设备与其它连接的设备进行通信。服务器系统210、240和270连接到网络260。服务器系统210、240和270中的每一个是经由内部网络彼此通信连接的一组一个或多个服务器计算机系统,所述系统执行通过网络260向用户提供云服务的处理。为了便于本讨论,云服务是由一个或多个服务器系统执行以通过网络向设备提供数据和/或可执行应用的一个或多个应用。示出服务器系统210、240和270,每个服务器系统具有经由内部网络连接的三个服务器。但是,服务器系统210、240和270可以包括任何数量的服务器,并且任何其它数量的服务器系统可以连接到网络260以提供云服务,包括但不限于虚拟服务器系统。根据本发明的各种实施例,通过在单个服务器系统和/或在网络260上通信的一组服务器系统执行的一个或多个软件应用来提供用于建模和预测分子特性的处理。

根据本发明的各种实施例,用户可以使用连接到网络260的个人设备280和220来执行用于建模和预测分子特性的处理。在所示的实施例中,个人设备280被示为经由常规的“有线”连接连接到网络260的台式计算机。但是,个人设备280可以是台式计算机、膝上型计算机、智能电视、娱乐游戏控制台或经由“有线”或“无线”网络连接连接到网络260的任何其它设备。移动设备220使用无线连接连接到网络260。无线连接是使用射频(RF)信号、红外信号或任何其它形式的无线信令连接到网络260的连接。在图2中,移动设备220是移动电话。但是,在不脱离本发明的前提下,移动设备220可以是移动电话、个人数字助理(PDA)、平板电脑、智能电话、虚拟现实耳机、增强现实耳机、混合现实耳机或经由无线连接连接到网络260的任何其它类型的设备。根据本发明的一些实施例,用于建模和预测分子特性的处理由用户设备执行。容易认识到的是,用于建模和预测分子特性的具体计算系统在很大程度上取决于给定应用的要求,并且不应当被视为局限于(一个或多个)任何具体的计算系统实施方式。

在图3中图示了根据本发明的若干实施例的建模元件。根据本发明的许多实施例的建模元件可以包括(但不限于)移动设备、计算机、服务器和云服务中的一个或多个。建模元件300包括处理器310、通信接口320和存储器330。

本领域技术人员将认识到的是,特定建模元件可以包括为简洁起见而省略的其它组件,而不背离本发明。处理器310可以包括(但不限于)处理器、微处理器、控制器、或处理器、微处理器和/或控制器的组合,其执行存储在存储器330中的指令以操纵存储在存储器中的数据。处理器指令可以配置处理器310以执行根据本发明某些实施例的处理。通信接口320允许建模元件300基于由处理器310执行的指令在网络上传输和接收数据。

存储器330包括建模应用332、分子数据334和模型数据336。根据本发明的若干实施例的建模应用被用于建模和预测不同分子的相互作用。在许多实施例中,建模的相互作用可以被用于识别候选分子以供进一步测试。在若干实施例中,建模应用可以使用分子数据,其包括从各种源生成的数据,包括(但不限于)分子模拟和/或分子特性的数据库。根据本发明各种实施例的模型数据336可以包括(但不限于)用于空间图、边类型神经网络和完全连接的分类器网络的数据。根据本发明的许多实施例的模型可以被用于各种目的,诸如(但不限于)识别分子系统的每个原子的特征矩阵并对分子的各种特点进行分类,包括但不限于键合/非键合、量子特性、毒性和溶解性。

虽然在图3中图示了建模元件300的具体示例,但是根据图3的实施例,可以将各种建模元件中的任何一个用于执行与本发明描述的那些处理类似的处理,以适合于具体应用的要求。

根据本发明实施例的用于识别候选配体的建模应用在图4中示出。建模应用400包括图形引擎405、键功能化器410、空间特征化器415、聚合引擎420和分类引擎425。根据本发明许多实施例的建模应用可以为分子系统的分子集合的分子数据建模和预测系统内的分子之间的相互作用。

在各种实施例中,图引擎可以建立分子集合的图表示。图表示可以包括(但不限于)键信息、键类型、距离信息、原子特性和绑定亲和力。根据本发明多个实施例的构造的图形表示可以包括邻接矩阵和/或距离矩阵。

根据本发明许多实施例的键特征化器可以基于原子与其每个相邻原子的键为分子系统的每个原子生成特征矩阵。在许多实施例中,键特征化器可以在建模和预测处理的不同阶段对不同类型的键进行操作。在各种实施例中,键特征化器可以在第一阶段中基于共价键为每个原子确定特征矩阵的第一集合,并且可以基于其它类型的键被用于确定原子的特征矩阵的第二集合。除了或代替键类型以外,根据本发明一些实施例的空间特征化器还可以基于不同原子之间的空间距离为分子系统的每个原子生成特征矩阵。根据本发明各种实施例的键特征化器可以在该处理的一些阶段中与空间特征化器结合操作,以便将键和空间信息都结合到每个原子的特征矩阵中。键和空间特征化器可以为每种键类型和/或处理的每个阶段实现多个神经网络。

根据本发明各种实施例的聚合引擎可以被用于聚合从特征器生成的特征。在各种实施例中,聚合引擎可以聚合由键和/或空间特征化器生成的特征矩阵的最终集合。在许多实施例中,聚合引擎仅对分子系统的分子之一(例如,配体)进行操作。

在各种实施例中,分类引擎可以被用于分类或预测分子集合之间的相互作用。根据本发明一些实施例的分类引擎可以实现分类器,诸如(但不限于)完全连接的神经网络(FCNN)和/或随机森林。在各种实施例中,分类引擎将由特征化器和/或聚合引擎生成的特征矩阵作为输入,并输出分子集合具有特定关系(例如,键合/非键合、激动剂(agonist)/拮抗剂(antagonist)等)的可能性。虽然在图4中图示了建模应用的具体示例,但是根据本发明的实施例,可以将各种建模应用中的任何一个用于执行与本文描述的那些类似的处理,以适合于具体应用的要求。

以上描述了根据本发明实施例的利用空间卷积来建模和预测分子特点的系统、元件和应用的具体示例;但是,本领域技术人员将认识到的是,根据本发明的实施例,可以根据具体应用的要求适当地利用任何数量的结构和系统。

在图5中概念性地图示了根据本发明实施例的用于执行分阶段卷积的处理。处理500接收(505)系统中一个或多个分子的原子信息。在各种实施例中,分子可以包括源(例如,配体)和目标分子。根据本发明若干实施例的原子信息包括关于每个分子的各种信息,包括(但不限于)距离信息和化学特性。在许多实施例中,原子类型(每个原子1x f

然后,根据本发明多个实施例的处理可以执行多个图卷积阶段。处理500执行(515)图卷积阶段。在一些实施例中,不同的图卷积阶段可以基于关于分子系统的信息的不同子集,其中信息可以包括(但不限于)键类型、距离类型和/或其它边类型。例如,一些阶段可以仅基于键合类型,而其它阶段可以基于某些边类型和距离信息。根据本发明各种实施例的单个图卷积阶段可以基于不同边类型的子集,而不同的卷积阶段基于不同边类型的不同子集或完整集合。例如,在某些实施例中,初始图卷积阶段基于指示共价键存在的邻接矩阵的第一层,而随后的图卷积阶段基于所有键类型以及原子距离。

在多个实施例中,每个图卷积阶段为每个原子产生特征向量,从而基于对每个阶段的输入来学习每个原子的特征。根据本发明各种实施例的特征向量可以用作后续图卷积阶段的输入。根据本发明各种实施例的每个图卷积阶段可以利用神经网络的集合。在许多实施例中,针对每种边类型训练每个单独的神经网络。在许多实施例中,神经网络可以包括但不限于完全连接的神经网络、卷积网络和递归网络。根据本发明的各种实施例,可以跨不同阶段使用用于特定边类型的神经网络,以便将不同阶段的权重联系在一起。但是,在许多实施例中,针对每种边类型和阶段训练和利用不同的神经网络。

处理500确定(520)是否还有更多的阶段要执行。在许多实施例中,执行指定数量的阶段。当处理确定有更多的阶段要执行时,处理返回到步骤515。当所有阶段都已经完成时,处理500执行(525)图聚集以在图卷积阶段之后聚合信息。在多个实施例中,图聚集仅对配体分子的原子执行。在各种实施例中,使用被训练为预测配体分子分类的完全连接的神经网络来执行图聚集步骤。分类可以包括(但不限于)预测的与目标分子键合的能力。

上面描述了根据本发明实施例的利用空间卷积对原子进行分类的具体处理;但是,本领域技术人员将认识到的是,根据本发明的实施例,可以根据具体应用的要求适当地采用任何数量的处理。

在图6中图示了根据本发明各种实施例的多阶段空间门控图神经网络的视觉描绘。第一阶段605仅需要在键上的图卷积,这在分子建模的更传统形式中得出与可区分原子类型大致相似的新节点(原子)特征映射。第二阶段610需要基于键的和基于空间距离的信息传播。在第三阶段615中,对配体原子进行图聚集操作,其特征映射得自键合的配体信息和与蛋白质原子的空间接近性。与分子动力学力场相反,由于历史原因,其分子场对于配体和蛋白质具有不同的力场,然后在模拟中它们必须互操作(常常较差),根据本发明一些实施例的方法可以从统一框架导出生物分子相互作用的物理化学特性。

为了进一步说明,根据本发明各种实施方式的第一和第二阶段利用完全邻接张量A的不同子集。在图7中图示了根据本发明各种实施例的第一阶段。在这个示例中,仅利用了在邻接张量A的最后一个维度的第一个切片中编码的共价或键合相互作用边类型。在图8中图示了根据本发明多个实施例的第二阶段。在这个示例中,利用了邻接张量A的最后一个维度的整个范围内的键合和非键合相互作用边类型。在各种实施例中,第二阶段还可以包括描述各种原子之间的距离的空间数据。

预测器性能的传统度量受到普遍问题和特定于药物发现的问题的困扰。对于回归变量,R

作为响应,化学信息学界采用了早期富集的概念,从而更加重视模型的最高执行者的重要性。目前,早期富集测量的这一进展仅限于分类并且尚未包括回归分析。与EF

其中,样本i的实验(观测到的)测量y

根据本发明各种实施例的处理通过除以数据的标准偏差σ(y)来归一化。这可以允许比较具有通用测量单位但这些测量的方差不同的数据集之间的模型性能。因此,上限等于(15)的右手侧,其中分子i的加索引的集合构成χ·N个实验性最强的分子的子集。这个值取决于训练数据的分布以及值χ。

空间图卷积在亲和力预测中表现出最先进的性能。根据本发明若干实施例的空间图卷积使用更原则的深度学习方法。输入特征仅仅是关于原子、键和距离的基本信息。在各种实施例中,这个框架不使用传统的手工制作的特征,诸如疏水效应、π堆叠或氢键合。代替地,通过中间图卷积神经网络层来学习根据本发明各种实施例的高层相互作用“特征”。虽然输入特征化更简单,但是根据本发明各种实施例的空间图卷积可以使用与先前的专业知识驱动的方法相同的相对少量的数据来学习蛋白质-配体结构与键合自由能的精确映射。如果要将机器学习应用于现实世界中的药物发现设置,那么必须测量给定模型的既在化学空间的熟悉区域内进行内插也泛化到较少绘制的区域的能力。

在一方面,本公开提供了用于预测分子特点的方法和系统。该方法包括:(a)获得作为具有N个原子和N

系统包括一个或多个处理器,这些处理器被单独或共同配置为:(a)获得作为具有N个原子和N

在一些实施例中,分子集合的表示还包括NxN距离矩阵。N

在一些实施例中,图的子图可以是1个子图、2个子图、3个子图、4个子图、5个子图或更多。在一些实施例中,图的子图可以是1至1000000个子图、1至10000个子图、1至1000个子图、1至100个子图、I至50个子图、1至20个子图、1至10个子图或1至5个子图。

一方面,本公开提供了一种用于预测分子的特点的方法。该方法包括:(a)用分子集合的空间图表示来执行图卷积的第一集合,其中图卷积的第一集合基于分子集合之间的键;(b)执行与该空间图表示的图卷积的第二集合,其中图卷积的第二集合至少基于分子集合中每个原子与其它原子之间的距离;(c)用空间图表示执行图聚集;以及(d)预测用于分子集合的一个或多个特点的集合。分子集合可以是1个分子、2个分子或更多分子。

在一些实施例中,预测一个或多个特点的集合包括评估来自图聚集的数据。根据本发明许多实施例的处理可以接收一个或多个分子的集合的原子信息。原子信息可以是但不限于:分子内的键长度、分子内的键强度、分子内的键角、分子内的二面角、两个和/或更多个分子之间的二面角、两个和/或更多个分子之间的键角、相同或两个和/或更多个不同分子的原子对之间的原子间距离、相同或两个和/或更多个不同分子的原子三元组之间的原子间角、两个和/或更多个分子之间的键距、分子的电荷、分子的电负性、给定原子对的偶极子、分子的偶极子、一个或多个分子的集合的偶极子,和/或两个和/或更多个分子之间的力。两个和/或更多个分子之间的力可以是但不限于:静电、离子吸引、中间偶极-偶极、弱伦敦分散、疏水相互作用、亲水相互作用、范德华力、氢键、共价键、金属键、磁和/或物理。分子内一个或多个原子的原子信息可以包括但不限于:化学元素、原子序数、质子数、电子数、近似质量、电荷、直径、形状、轨道形状、尺寸、能级、化合价、磁矩和/或同位素。

在各种实施例中,建立空间图表示可以包括生成距离矩阵和邻接张量,其中距离矩阵表示分子集合的原子之间的距离,并且邻接张量指示原子之间的多个不同边类型。边类型可以包括但不限于:共价键,离子键、极性键、金属键、非共价键(例如,π-π堆叠)、盐桥、距离区间(硬截止和/或在高斯和和/或其它基集上扩展)和/或氢键。

在许多实施例中,分子集合包括配体分子和目标分子,其中距离矩阵的行通过在配体和目标分子中的成员关系而排序。

在一些实施例中,分子集合之间的键包含共价键。在多个实施例中,分子集合之间的键包括π-π堆叠、氢键和疏水性接触中的至少一个。在一些实施例中,集合中不同分子中的原子之间的键/边包括软或硬区间中的距离。在一些实施例中,分子集合可以包括一个分子。在一些实施例中,分子集合可以包括被溶剂分子包围的一个分子。

在一些实施例中,图卷积的第二集合还基于分子集合之间的键。在一些实施例中,图卷积的第一集合可以基于分子集合之间的键的第一集合,而图卷积的第二集合可以基于分子集合之间的键的第二集合。在一些实施例中,键的第一集合是键的第二集合的子集。

根据本发明许多实施例的执行图卷积的第一集合包括在图卷积的每一层执行操作。在一些实施例中,操作可以是但不限于:门控循环单元(GRU)、长短期记忆(LSTM)、门控线性单元(GLU)、循环神经网络、完全连接的神经网络,或其组合。在多个实施例中,执行图卷积的第一集合包括在图卷积的每一层执行门控循环单元(GRU)操作。

在若干实施例中,执行图卷积的第一集合包括利用第一多个神经网络,其中多个神经网络中的每个神经网络可以用于不同的键类型。在多个实施例中,执行图卷积的第二集合包括利用第二多个神经网络,其中第一多个神经网络的权重可以与第二多个神经网络共享。

在若干实施例中,执行图卷积的第二集合包括利用第二多个神经网络,其中第二多个神经网络的神经网络可以利用关于分子集合的原子之间的距离的距离信息。

在一些实施例中,分子集合包括配体分子和目标分子,其中图聚集可以仅对配体分子进行。

在一些实施例中,特点集合包括分子集合中的第一分子是否与分子集合中的第二分子键合。

在另一方面,本公开提供一种用于训练空间卷积图模型的方法。该方法包括:执行与分子集合的空间卷积图模型的图卷积的第一集合,其中图卷积的第一集合基于分子集合之间的键;与该空间卷积图模型执行图卷积的第二集合,其中图卷积的第二集合至少基于分子集合中每个原子与其它原子之间的距离;用空间卷积图模型执行图聚集;计算分子集合的损失;并基于计算出的损失来更新空间卷积图模型。

在一些实施例中,可以通过进行随机模拟来计算预测分子集合的运动,例如,估计溶剂化作用、估计保形熵、探索蛋白质和配体两者的不同构象(例如,“诱导的拟合”键合模型)。根据本发明若干实施例的预测运动可以被用于模拟关键的生物物理处理,诸如(但不限于)配体与蛋白质的键合,其可以取决于可以通过预测分子集合的运动而计算出的若干特性。

在某些实施例中,处理和系统可以使用空间卷积图模型的层来训练一个或多个神经网络的集合,以预测力场的一个或多个参数的集合。网络的层可以训练1、2、3、4、5、10、20、50、100、1000、10000或更多个神经网络的集合,以预测力场的一个或多个参数的集合。网络的层可以训练1-10000、1-1000、1-500、1-100、1-10或1-5个神经网络的集合,以预测力场的一个或多个参数的集合。神经网络可以被用于预测力场的1、2、3、4、5、10、20、50、100、1000、10000或更多个参数的集合。神经网络可以被用于预测力场的1-10000、1-1000、1-500、1-100、1-10或1-5个参数的集合。

在各种实施例中,参数集合可以与一个或多个特点的集合相关联,特点的集合包括电荷、键角和二面角中的至少一个。参数集合可以与1、2、3、4、5、10、20、50、100、1000、10000或更多个特点的集合相关联。参数集合可以与1-10000、1-1000、1-500、1-100、1-10或1-5个特点的集合相关联。

在某些实施例中,空间卷积图模型可以是第一空间卷积图模型,该方法还包括:训练第二空间卷积图模型以预测势能;以及基于第一和第二空间卷积图模型来预测分子系统的势能。

在各种实施例中,训练第二空间卷积图模型包括在第一和第二空间卷积图模型之间共享一个或多个层的集合。训练第二空间卷积图模型可以包括在第一和第二空间卷积图模型之间共享1、2、3、4、5、10、20、50、100、1000、10000或更多个层的集合。训练第二空间卷积图模型可以包括在第一和第二空间卷积图模型之间共享1-10000、1-1000、1-500、1-100、1-10或1-5个层的集合。

在一些实施例中,力场是具有能量精炼的辅助模型构建(AMBER)函数形式。在一些实施例中,力场功能可以是完全的神经电势,并且可以具有固定形式电势的特点,诸如但不限于AMBER、CHARMM(具有或不具有CMAP项)、GROMOS、AMOEBA,或其组合。

在许多实施例中,系统和处理可以使用空间卷积图模型的层来训练一个或多个神经网络的集合以预测输入分子系统的势能。空间卷积图模型的层可以被用于训练1、2、3、4、5、10、20、50、100、1000、10000或更多个神经网络的集合以预测输入分子系统的势能。空间卷积图模型的层可以被用于训练1-10000、1-1000、1-500、1-100、1-10或1-5个神经网络的集合以预测输入分子系统的势能。

在各种实施例中,通过最小化由空间图卷积模型预测的势能来识别分子集合的构象集合。

在另一方面,本公开提供一种用于预测分子的特点的系统,该系统包括:一个或多个处理器,这些处理器被单独或共同配置为执行与分子集合的空间图表示的图卷积的第一集合,其中图卷积的第一集合基于分子集合之间的键;执行与该空间图表示的图卷积的第二集合,其中图卷积的第二集合至少基于分子集合中每个原子与其它原子之间的距离;用空间图表示执行图聚集;并预测用于分子集合的一个或多个特点的集合。

在另一方面,本公开提供了用于药物发现的方法和系统。该方法可以包括用机器学习从预测的分子特点中识别候选配体。在一些实施例中,识别候选配体包括执行与分子集合的空间图表示的图卷积的第一集合,其中图卷积的第一集合基于分子集合之间的键;与该空间卷积图模型执行图卷积的第二集合,其中图卷积的第二集合至少基于分子集合中每个原子与其它原子之间的距离;用空间图表示执行图聚集;预测分子集合的一个或多个特点的集合;以及从分子集合的一个或多个特点的集合中预测候选配体。

在一些实施例中,系统包括一个或多个处理器,该一个或多个处理器被单独地或共同地配置为:执行与分子集合的空间图表示的图卷积的第一集合,其中图卷积的第一集合基于分子集合之间的键;与该空间卷积图模型执行图卷积的第二集合,其中图卷积的第二集合至少基于分子集合中每个原子与其它原子之间的距离;用空间图表示执行图聚集;预测分子集合的一个或多个特点的集合;以及从分子集合的一个或多个特点的集合中预测候选配体。

在一些实施例中,一个或多个特点的集合包括键合亲和力。在一些实施例中,一个或多个特点的集合包括配体构象。在一些实施例中,一个或多个特点的集合可以是配体的电荷、毒性、吸收、分布、代谢、消除、CYP450亚型抑制、代谢稳定性、膜通透性、口服生物利用度、量子电子性质、溶解性、LogD,或其组合。

在一些实施例中,可以使用预训练的模型来帮助从分子集合的一个或多个特点的集合预测候选配体。

在各种实施例中,为了将提出的体系架构的性能与先前的方法进行比较,基于PDBBind 2007评估了性能。在一些实施例中,PDBBind 2007数据集通过(a)从包括蛋白质共晶体结构和相关联的键合自由能值的“精炼的”集合开始;(b)移除“核心”集以形成测试集被拆分,其中(c)其余样本用作训练数据。在本公开中,这个训练测试拆分是指下文中的“PDBBind 2007,改进的训练,核心测试”,并且将性能与RF分数、X分数和本公开中描述的网络进行比较。

在本公开中,本公开调查交叉验证策略,在一些实施例中,该交叉验证策略基于成对的结构和序列同源性作为距离度量将所有训练数据拆分成具有分层聚类的三个不同的文件夹-训练、验证和测试子集。在各种实施例中,用于基准的交叉验证使用超参数集。

示例

提供以下示例以说明但不限制要求保护的发明。深度神经网络算法的性能对所选择的超参数高度敏感。这种敏感性强调严格的交叉验证的重要性。为了将建议的体系架构的性能与以前的方法进行比较,基于PDBBind 2007评估了性能。在以前的工作中,PDBBind2007数据集通过(a)从包括1300个蛋白质共晶体结构和相关联的键合自由能值的“精炼的”集合开始;(b)移除包括195个样本的“核心”集以形成测试集被拆分,其中(c)其余1095个样本用作训练数据。在本公开中,这个训练测试拆分是指下文中的“PDBBind 2007,精炼训练,核心测试”,并且将性能与RF分数、X分数和本公开中描述的网络进行比较。

在本公开中,本公开调查交叉验证策略,在一些实施例中,该交叉验证策略基于成对的结构和序列同源性作为距离度量将所有训练数据拆分成具有分层聚类的三个不同的文件夹-训练、验证和测试子集。在标准的PDBBind 2007“精炼训练,核心测试”基准中,空间图卷积实现了由若干度量反映的最新性能。根据Pearson和Spearman相关系数,PotentialNet优于RF分数和X分数。用于(7)-(14)的Pearson相关性分数在报告的TopologyNet分数的误差内,TopologyNet是迄今为止在这个基准中表现最好的模型。对此执行交叉验证(包括表I、II和III中报告的所有结果),使得针对在不同验证集上表现最高的超参数集记录在测试集上的性能(表VII)。相比之下,TopologyNet模型是在验证集和训练集的组合上进行训练的,并直接在测试集上进行评估。因此,用于TopologyNet的性能反映了训练验证类型拆分,而不是训练验证测试拆分,这可能使该方法的性能夸大。表IV-VI说明了用于预测量子特性、毒性和溶解性的比较结果。

表I.基准:PDBBind 2007,精炼训练,核心测试

表II.基准:PDBBind 2007精炼的、凝结序列拆分

表III.基准:PDBBind 2007精炼的、凝结序列拆分

表IV.用QM8数据集的量子特性预测

表V.用Tox21数据集的毒性预测

表VI.用Delaney ESOL数据集的溶解性预测

表VII.用于PotentialNet神经网络的超参数

提供这些示例是为了说明而不是限制要求保护的发明。

具有空间图卷积的分子动力学

虽然神经网络社区将越来越多的资源投入到生成模型中,诸如生成对抗网络(GAN)和变分自动编码器(VAE),但自17世纪以来,自然科学一直在研究一系列生成模型:物理学。光学物理学排除了对生物大分子及键合到其的小分子药物的实时、原子分辨行为的观察。虽然量子力学(QM)对此类实验观察提出了基本限制,但其数学框架的知识也赋予了以任意精度在理论上对此类原子行为进行建模的能力。

以三个运动定律和简单的平方反比势为基础的第一牛顿力学使得能够在给定初始条件的情况下对物体的未来位置进行难以置信的精确预测。在二十世纪,随着对微米级和纳米级现象的测量变得越来越普遍,发明了量子力学,以实现前所未有的预测亚原子、原子和分子系统的长期(如果是随机的)行为的准确性。

分子动力学(MD)是一系列技术,通过进行与底层Schrodinger方程的牛顿逼近使得分子的这种理论启发比纯QM更易于计算。在分子系统的检验中存在两个基本的权衡:在分子实验观察中时空分辨率之间的权衡,以及对系统中所有原子进行显式建模的计算方法的速度与准确性之间的权衡。分子动力学是一种类型的模拟,它使用牛顿力学来逼近量子力学中实施的更现实但评估速度更慢的物理模型。分子动力学的不准确性主要源于力场误差-基于系统中原子位置的势能函数不准确-以及模拟时间尺度不足。

根据本发明若干实施例的系统和方法提供了用于开发用于分子系统的能量从而力场的更准确估计的框架。根据本发明多个实施例的处理部署空间图卷积以重新参数化具有能量精炼的辅助模型构建(AMBER)函数形式,以更准确地表示小有机分子的行为。根据本发明一些实施例的方法可以针对任何给定的查询生物分子系统自动生成新参数,其从单个氨基酸和碱基到蛋白质和核酸。在某些实施例中,处理可以基于近几十年来主导了MD模拟的AMBER函数形式部署图卷积来训练新的力场。在多个实施例中,可以利用深度神经网络(DNN)来学习一种新的函数形式,该函数形式基于源自固定、简单的初始特征化和原子的动态相对位置的可学习的原子类型来计算能量。在某些实施例中,可以基于空间图卷积(诸如上述的那些)来构造和评估势能函数。可以在由一组小分子的多个构象体的能量的高级量子力学计算组成的数据集中训练和评估根据本发明的某些实施例的图卷积势(GCP)模型。根据本发明的各种实施例,通过反向传播计算的这种能量函数的梯度可以形成不受AMBER函数形式的固有局限性的甚至更精确的分子动力学模拟的基础。

使用量子力学计算、NMR和其它经验数据的组合将高度流行的AMBER函数形式拟合在AMBER和CHARMM力场中。函数形式如下:

标量输出V(r

在某些实施例中,处理可以为每个原子导出类似于传统力场中的离散“原子类型”的密集的、可区分的特征映射。在一些这样的实施例中,可以利用数据集(诸如ANI-1数据集)来拟合新的类似AMBER的力场(FF),该力场基于其在数据集上的训练对氨基酸和其小分子应用“特征化”(电荷、平衡键长度、角度、二面角及其力常数)。最近发布的ANI-1数据集包括分布在近似60000个小有机分子中的大约2000万个总构象,以及通过密度泛函理论(DFT)、量子化学方法计算的相关联的能量值。在某些实施例中,或者严格基于完全的PotentiaiNet或图卷积势或者其参数得自图卷积的AMBER函数形式的力场可以用来自量子化学计算的数据(例如,ANI-1数据集)、NMR实验数据等进行训练。对于给定的小分子,x和A将是固定的,但R将对于每个构象异构体(conformer)都不同。根据本发明许多实施例的空间图卷积可以学习原子级特征,其中这些原子级特征是传统力场中常见的“原子类型”的连续的、可区分的类似物。

阶段1:

阶段2:

将原子特征映射映射到参数

其中

对于不在训练集中的新分子,根据本发明若干实施例的处理可以在单次向前通过中输入固定的特征化x、A并输出,在诸如(但不限于)QpenMM、AMBER、DESMOND和GROMACS之类的分子动力学模拟包中进行MD模拟所必需的点电荷和其它参数。附加的计算步骤可以是力场文件的自动生成,这是相对直截了当的练习。

全图卷积势

在许多实施例中,系统和方法利用端到端训练的全新的势能函数形式作为在图卷积体系架构上预测的深度神经网络。在图论文献中,表示每个节点标量或向量的“节点级输出”与“图级输出”(其是作为图中所有节点和边的函数的单个标量或向量)区分开来。在一些实施例中,可以通过对于原子/节点排序不变的“图聚集”层来实现图级输出:

其中最终权重矩阵

如果最终输出是标量值并且用连接到能量值的输入分子系统作为标签训练空间图卷积模型(或PotentialNet),那么可以将根据本发明一些实施例的模型视为势能函数:

φ(x,A,R)=PotentialNet(x,A,R) (21)

根据本发明若干实施例的势能φ(x,A,R)的计算对于每个图卷积层都要求

AMBER力场函数形式已经成功地阐明了生物大分子和小分子动力学以及它们之间的相互作用。在一些实施例中,总势能的计算被计算为具有空间图卷积(或PotentialNet)的AMBER函数形式(具有或者固定或者可学习的参数,以GAFF作为初始猜测)的总和:

φ(x,A,R)=PotentialNet(x,A,R)+AMBER(bonds,angles,torsions) (22)

在一些实施例中,设想AMBER函数形式和空间图卷积(或AmberNet)的组合:

φ(x,A,R)=PotentialNet(x,A,R)+AmberNet(x,A,R) (23)

在多个实施例中,可以通过共享导出原子特征h

使分子的每个构象特征化可以需要(a)原子级特征,其可以像每个元素及其杂交类型的独热(one-hot)特征一样简单,(b)键的邻接张量,以及(c)原子间距离。在多个实施例中,基于PotentialNet训练神经网络回归器,以将每个构象异构体的输入x、A和R映射到能量。根据本发明若干实施例的交叉验证策略包括但不限于随机的、时间的(如果可用的话)、支架和SMILES距离的凝结拆分。此处的目标应当是与实验误差或DFT误差达到同等水平的最新能量估计。

在一些实施例中,在训练PotentialNet(x,A,R)之后(例如,利用ANI-1和/或将构象异构体映射到能量值的其它数据集),可以将这种模型的参数固定以产生

在牛顿系统中,可以将原子上的力写作:

在某些实施例中,梯度

在牛顿系统中,可以将运动方程写为:

根据本发明许多实施例的处理可以使用包括但不限于速度Verlet算法在内的多种方法来传播给定一些初始坐标(以及相关联的原子间距离矩阵R

在许多实施例中,可以期望仅在二面空间中用GCP进行第一MD模拟。一些生物物理学家认为,大分子在生物学上的许多相关动力学仅源于可旋转键的二面运动。二面角或扭转角是由两个连续的四个键合原子系列所定义的两个平面之间的角度定义的。有多种途径可以将分子模拟约束到二面体空间。首先,在一些实施例中,可以相对于d个二面角θ直接取电势的梯度:

进而,根据本发明一些实施例的处理可以计算进一步的导数,以根据原始x,y,z坐标将二面/内坐标空间导数传播为导数。本领域技术人员将认识到的是,存在用于在二面空间中执行MD的多种方法。

在各种实施例中,来自PotentialNet或可替代地AmberNet的全图卷积能量都可以用作分子对接能量函数的基础。在许多实施例中,通过以给定的朝向播种给定配体的给定构象,或者能量最小化或者随机动态模拟可以被用于预测受体中配体的整体能量最小构象或对接姿势。如上所述,PotentialNet的不同变体可以被用于预测给定配体-蛋白质相互作用的键合自由能/键合亲和力/效价。在一些实施例中,处理可以将PotentialNet的纯图形卷积形式与AmberNet相似的电位相键合。通过将键合能计算为

ΔG(x,A,R)=PotentialNet(x,A,R)+AmberNet(x,A,R) (27)

可以将诸如构象熵、扭转应变项、分子内碰撞等概念与经典分子对接方法结合起来,但可以通过深层神经网络推导这些参数。在许多实施例中,图卷积可以是用于计算反应坐标以监视和驱动生物分子系统的集体动力学的自然函数形式。

虽然已经在某些特定方面描述了本发明,但是许多附加的修改和变化对于本领域技术人员将是显而易见的。因此,应该理解的是,可以以不同于具体描述的方式来实践本发明。因此,本发明的实施例在所有方面都应被认为是说明性的而非限制性的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号