首页> 中国专利> 一种基于变分自编码器和消息传递神经网络的分子图生成方法

一种基于变分自编码器和消息传递神经网络的分子图生成方法

摘要

本发明公开了一种基于变分自编码器和消息传递神经网络的分子图生成方法,以进行分子生成和分子目标特性优化;本发明采用了消息传递神经网络构建到变分自编码器的编码器和解码器中,进一步减少了训练过程的运行时间和占用内存;另外,通过构造变分自编码器的潜在空间,以允许优化分子性质;在QM9化学数据库上的分子生成实验中,该模型能够生成100%有效的化合物,并且新颖率和唯一率也很高;在QM9化学数据库上的目标优化实验中,能够进一步优化目标特性。

著录项

  • 公开/公告号CN113327651A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202110597729.1

  • 发明设计人 裴文江;蒋冰越;夏亦犁;

    申请日2021-05-31

  • 分类号G16C20/50(20190101);G16C20/70(20190101);G06N3/04(20060101);

  • 代理机构32249 南京瑞弘专利商标事务所(普通合伙);

  • 代理人孙峰

  • 地址 211189 江苏省南京市江宁区东南大学路2号

  • 入库时间 2023-06-19 12:24:27

说明书

技术领域

本发明涉及分子图生成技术领域,特别是涉及一种基于变分自编码器和消息传递神经网络的分子图生成方法。

背景技术

在现代社会,材料化学中新分子探索已经成为热门话题,而材料创新是许多近期技术进步的关键驱动力。材料创新是许多近期技术进步的关键驱动力。从清洁能源到航空航天业或药物开发,化学和材料科学领域的研究一直在不断发展,以开发出具有新颖用途、更低成本和更好性能的化合物。

在最高的抽象层次上,分子的设计被表述为一个组合优化问题,以便在广阔的化学空间中找到最佳解决方案。药物发现和材料科学中的许多重要问题都是基于设计具有特定期望性质的分子结构的原则。然而,由于化学空间的巨大,这仍然是一个具有挑战性的任务。一个药物化学家,或者说一个全新的分子设计软件,都面临一个几乎无限的搜索空间,这个搜索空间是巨大的,由于它的离散性,在这个空间中寻找目标化合物分子是非常困难的。

尽管在高通量筛选技术上取得了巨大的进步,但在如此大的空间中进行穷举搜索是不可能的。全新设计过程中的导航不是系统地构建和评估每个个体,而是依赖于局部优化的原则,这并不一定会导致全局最优解。

发明内容

有鉴于此,本发明的目的在于提供一种基于变分自编码器和消息传递神经网络的分子图生成方法,用以完成分子生成任务以及分子目标优化任务。

为了实现上述目的,本发明采用如下技术方案:

一种基于变分自编码器和消息传递神经网络的分子图生成方法,包括如下步骤:

步骤S1、构建药物分子库;

步骤S2、利用变分自编码器框架,建立包括编码器和解码器的药物分子生成模型;

步骤S3、将所述药物分子库输入至所述药物分子生成模型中进行训练,得到训练好的药物分子生成模型;

步骤S4、利用步骤S3中训练好的药物分子生成模型,执行分子生成流程,生成候选分子;

步骤S5、对步骤S4中得到的候选分子进行性质检测。

进一步的,所述步骤S1具体包括:获取QM9数据集,从该数据集中获取多种已知药物分子的信息,通过该信息建立所述药物分子库,该系统包括结构信息和理化信息,其中,所述药物分子表示为图数据,所述药物分子的结构信息包括图中的节点和边,所述理化信息包括分子的脂水分配系数的对数值、类药性和可合成性。

进一步的,所述步骤S2具体包括:

步骤S201、搭建药物分子生成过程的基本模型,即变分自编码器,通过学习真实数据和隐向量的联合概率分布实现分子生成,具体包括:

构建药物分子生成模型p

公式(1)中,

步骤S202、设计并实现基于图数据结构的深度生成模型即药物分子生成模型;设计基于图神经网络的编码器和基于图数据结构解码器,建立基于图数据结构的深度生成模型即药物分子生成模型;药物分子生成模型包括编码器和解码器,具体包括:

设S是需要优化的药物分子性质,将药物分子性质关于分布p

公式(2)中,S

公式(3)中,O表示所有子图模式的集合,no是模式o在图G中出现的次数,co是模式o每次出现对于该性质的贡献;结合公式(2)和公式(3)得到公式(4):

公式(4)中,

进一步的,所述步骤S3具体包括:

构建所述药物分子生成模型的目标函数,表达式为:

公式(5)中,

假设从分布

公式(6)中,

进一步的,所述步骤S4具体包括:

步骤S401、节点初始化:在一组最初未连接的节点中,将节点状态

步骤S402、边选择和边标记:首先从队列中选择焦点节点v,进行函数展开,然后选择从v到u的边

对于每个非焦点节点u,构建一个特征向量

产生候选边的分布,表达式为:

步骤S403、节点更新:使用消息传递神经网络来更新图中每个节点的隐藏状态,具体包括消息传递阶段和读出阶段;

在消息传递阶段运行T个时间步长,由消息函数M

公式(8)中,e

在读出阶段使用读出函数R计算整个图的特征向量,表达式为:

步骤S404、向节点添加边,直到选择到停止节点的边;

步骤S405、在选择到停止节点的边后,焦点节点失去焦点并变为关闭,从焦点队列中选择下一个焦点节点,边生成仍在继续,直到队列为空,没有新的候选焦点节点。

进一步的,所述步骤S5具体包括:对生成的候选药物分子进行药物分子性质检测和药物相似性QED检测。

本发明的有益效果是:

在分子生成任务中,本发明生成的分子的化学指标能够基本匹配溶解度上的训练数据集QM9的分布,倾向于集中分布,而在分子量上倾向于生成大分子量的分子,这使得本发明生成分子的唯一率较高;另外,本发明生成分子的有效率和新颖率指标均十分优异;在目标特性优化任务中,本发明可以生成高药物相似性QED的分子,优化性能具有较大的优势。

附图说明

图1为基于变分自编码器和消息传递神经网络的分子图生成模型的流程框图。

图2为基于变分自编码器和消息传递神经网络的分子图生成模型示意图。

图3为基于变分自编码器和消息传递神经网络的分子图生成模型的生成流程。

图4为目标特性优化任务中生成分子的前3个最高QED得分。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

参见图1-图4,本实施例提供一种基于变分自编码器和消息传递神经网络的分子图生成方法,在该方法中,本实施例提出基于深度生成模型的分子生成模型,涉及计算机人工智能和医药分子设计的交叉领域,其核心思想是将图神经网络和性质正则化同时引入深度生成模型,能够有效利用图表示能够捕捉分子内在相似性的特点,解决了分子性质作为优化目标高度复杂而不可微的问题。

如图1所示,该方法包括构建有效药物分子库、搭建药物分子生成的基本模型、设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块、模型预训练、生成流程执行、生成结果的验证与应用等步骤。

图2所示为本发明具体实施时构建的基于深度生成模型的药物分子生成模型的结构示意图,其中,图2的上半部分为训练阶段的数据流通路径,真实药物分子A经过编码器编码后得到变分后验概率分布q

在训练阶段我们的目标是使得解码得到的分子B和输入的分子A相同,同时迫使q

该方法具体包括如下步骤:

步骤1构建有效药物分子库。

通过有针对性地收集QM9数据集中药物分子的信息,即真实数据,建立用于药物分子生成模型训练和测试的分子信息库,QM9分子信息库包含了一些已知药物分子的结构信息(药物分子表示为图数据,其结构信息包括图中的节点和边),和用于测试的药物分子的理化信息,例如分子的脂水分配系数的对数值(logP)、类药性、可合成性等。

步骤2搭建药物分子生成模型。

本方法是基于深度生成模型的一种分子图生成方法,目标是学习一个药物分子生成模型p

上式中,

步骤3设计并实现基于图数据结构的深度生成模型,作为药物分子生成模型

药物分子生成模型包括编码器和解码器,可分别采用图神经网络和全连接神经网络。具体地:

在公式(1)中,图数据G用于表示真实分子,z为G通过编码器编码得到的隐向量。编码器输出一个矩阵

编码器的结构采用图神经网络,解码器则采用多层全连接神经网络。

步骤4设计并实现分子性质目标正则化方法,使得模型能够生成具有特定性质的分子;

设S是需要优化的分子性质(如分子的脂水分配系数的对数值(logP)、类药性、可合成性等性质),可以将它关于分布p

其中,S

其中,O是所有子图模式的集合,no是模式o在图G中出现的次数,co是模式o每次出现对于该性质的贡献。结合公式(2)和(3)可得式(4):

式(4)中,

步骤5对构建的药物分子生成模型进行训练。

为训练所设计的药物分子生成模型,需要依据合理的目标函数。本发明中,药物分子生成模型需最大化如下目标函数L,表达式为:

其中,

其中,

步骤6利用训练好的药物分子生成模型,执行分子生成流程,生成候选分子。

(1)节点初始化:在一组最初未连接的节点中,将节点状态

(2)边选择和边标记:首先从队列中选择焦点节点v。函数展开,然后选择从v到u的边

(3)节点更新:使用消息传递神经网络来更新图中每个节点的隐藏状态。分为消息传递阶段和读出阶段。消息传递阶段运行T个时间步长,由消息函数M

读出阶段使用某个读出函数R计算整个图的特征向量,即

(4)向节点添加边,直到选择到停止节点的边。

(5)在选择到停止节点的边后,焦点节点失去焦点并变为“关闭”,从焦点队列中选择下一个焦点节点。边生成仍在继续,直到队列为空,没有新的候选焦点节点。

以上分子生成流程如图3所示。

步骤7性质检测

对药物分子生成模型所生成的候选分子,进行性质检测。即根据分子结构计算并预测相应的分子性质,并将所得性质与设计要求做对比。具体地,一般为了得到有效的药物分子,对生成的药物分子的脂水分配系数的对数值(logP)、类药性进行检测,判断药物分子的生物利用度。

表1、分子生成任务结果对比

从表1可以看出,本实施例提出的模型在四种模型中具有较大的优势。

本发明未详述之处,均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号