首页> 中国专利> 一种图神经网络的数据-机理驱动的材料属性预测方法

一种图神经网络的数据-机理驱动的材料属性预测方法

摘要

本发明公开了一种图神经网络的数据‑机理驱动的材料属性预测方法,包括:S1,获取待预测材料分子的描述符特征和图结构;S2,利用特征工程筛选出最终的特征描述符;S3,利用图卷积和图注意力网络提取不同层次的分子图特征;S4,利用特征融合层将分子图特征与描述符特征相融合;S5,利用修正模块来将计算值和实验值进行更好的融合;其中,所述的计算值为第一性原理模拟计算得出的数值,实验值为实验测得的实际的材料属性;S6,将机理驱动模型的计算值与深度学习数据驱动模型融合用于模型推理,并输出预测属性的数值。本发明融合了分子的描述符特征和图结构特征,克服了图结构数据信息不完全和描述符特征忽略分子属性的问题。

著录项

  • 公开/公告号CN114818948A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 北京科技大学;

    申请/专利号CN202210483568.8

  • 发明设计人 张桃红;陈赛安;陈晗;

    申请日2022-05-05

  • 分类号G06K9/62;G06N3/04;

  • 代理机构北京中睿智恒知识产权代理事务所(普通合伙);

  • 代理人邓大为

  • 地址 100000 北京市海淀区学院路30号

  • 入库时间 2023-06-19 16:09:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及材料发现和图神经网络技术领域,特别涉及一种图神经网络的数据-机理驱动的材料属性预测方法。

背景技术

分子材料广泛应用于医疗卫生、食品、日常化工等领域。因此,加快新分子材料的发现对促进科学和社会的发展具有重要意义。目前,分子材料的研究非常耗时,需要大量的努力来确定一定的目标性质,优化分子的合成条件。理论高通量计算方法通常用于预测分子的性质。这种有合理解释的机制驱动的计算模型可以有效地加速新材料的发现。然而,机构驱动的计算模型是一个具有参数简化的理论模型。它忽略了材料缺陷、真实环境、设施、研究人员技能等因素的影响。这些因素可能会导致预测的不准确性。

近年来,大数据驱动的人工智能方法被广泛应用于计算机视觉、自然语言处理、医学和交通等领域。由于分子大数据的强大的非线性能力和可行性,基于机器学习和深度学习的材料特性预测受到了研究者的广泛关注。目前,材料中的人工智能方法主要有两个方面。一种是基于描述符的机器学习预测,它需要找到与目标属性有很强相关性的描述符;另一种是基于图神经网络的端到端深度学习模型,它是一种利用分子图结构作为输入的神经网络,可以从分子图结构中提取抽象信息,映射到目标属性。然而,图神经网络与其他机器学习方法也存在同样的问题,即缺乏泛化,易于达到训练数据的极限。特别是对于新材料的发现,深度学习方法的预测可能不准确。当真实的分子被抽象为图结构时,它将失去部分三维结构信息和核外电子信息。而且这会导致对结果的预测不准确。因此,将描述符特征与图结构化特征相融合,既可以解决描述符缺少图结构信息的问题,又可以解决图结构泛化性差的问题。

发明内容

本发明提供了一种图神经网络的数据-机理驱动的材料属性预测方法,以解决机理驱动的计算模型忽略材料属性和深度学习网络泛化性能低的问题。通过将描述符特征和图结构特征输入到深度学习网络中进行训练,并使用机理驱动模型对深度学习的输出进行调整,提升了分子属性预测的准确性。

为解决上述技术问题,本发明提供了如下技术方案:

本发明提供了一种图神经网络的数据-机理驱动的材料属性预测方法,包括:

S1,获取待预测材料分子的描述符特征和图结构;

S2,利用特征工程筛选出最终的特征描述符;

S3,利用图卷积和图注意力网络提取不同层次的分子图特征;

S4,利用特征融合层将分子图特征与描述符特征相融合;

S5,利用修正模块来将计算值和实验值进行更好的融合;其中,所述的计算值为第一性原理模拟计算得出的数值,实验值为实验测得的实际的材料属性;

S6,将机理驱动模型的计算值与深度学习数据驱动模型融合用于模型推理,并输出预测属性的数值。

进一步地,所述S1中,获取待预测材料分子的描述符特征和图结构,包括:

从PubChem网站,通过网站提供的Restful api接口获取具有图结构信息以及实验数据的json文件,其中图结构信息包括原子属性和键的属性。分子相应的描述符特征使用开源化学信息软件rdkit在线收集。分子描述符涵盖了分子的基本性质、电子性质、拓扑性质。

进一步地,所述S2中,利用特征工程筛选出最终的特征描述符,包括:

对初始的特征描述,构建多项式特征来进行特征筛选降低数据拟合的难度。使用皮尔逊相关系数和最大信息系数对多项式特征的相关度进行排序,筛选出最终的特征描述符。

进一步地,所述多项式特征,包括:

特征描述符可以表示为X={x

进一步地,所述S3中,利用图卷积和图注意力网络提取不同层次的分子图特征,包括:

构建包含不同卷积数量的特征提取层提取不同层次的分子特征,浅层的图卷积获取局部的特征信息,深层的图卷积获取全局的长范围的特征信息。图卷积可以对分子中原子的邻居信息进行聚集,图卷积的层数越多,可获取的特征信息越广。图注意力可以对每个原子周围的邻居节点进行权重的调整。图网络的输入为三元组{V,E,A},其中V表示构成分子的原子的特征矩阵,E表示边的特征矩阵,A表示图的邻接矩阵。具体的特征金字塔构建方法如下:

X

X

X

X

X

其中,GCN表示图卷积网络层,GAT表示图注意力网络层;X

进一步地,所述S4中,利用特征融合层将分子图特征与描述符特征相融合,包括:

特征融合层将经过特征工程筛选得到的描述符特征与经过图神经网络特征提取得到的分子图特征相融合。描述符特征是基于电子和外围结构进行建模的,这些计算方法包含了大量的三维信息和核外电子的相互作用信息,可以用来补充图结构的信息丢失问题。具体的特征融合方法如下:

X

X

X

进一步地,所述S5中,利用修正模块来将计算值和实验值进行更好的融合;其中,所述的计算值为第一性原理模拟计算得出的数值,实验值为实验测得的实际的材料属性,包括:

为了更好的将计算值和实验值进行更好的融合,使用实验值来构造深度学习的预测标签L。深度学习预测标签L既考虑了深度学习模型的预测结果,又考虑了真实的实验数据。具体的预测标签创建方法如下:

L=F(L

其中,L

进一步地,所述S6中,将机理驱动模型的计算值与深度学习数据驱动模型融合用于模型推理,并输出预测属性的数值,包括:

机理驱动模型是通过公式计算出分子的属性数值,机理驱动模型产生的结果是可信的。通过机理驱动模型来对深度学习模型进行调制,增强深度学习模型输出的准确性。具体的模型输出计算方式如下:

O

本发明提供的技术方案带来的有益效果至少包括:

本发明地上述技术方案提供了初始的分子描述符特征和图结构的获取方法;利用特征工程从初始的分子描述符特征中选出最相关的描述符特征;利用图卷积和图注意力网络提取不同层次的分子图特征;利用特征融合层将分子图特征与描述符特征相融合;利用修正模块来将计算值和实验值进行更好的融合;将机理驱动模型的计算值与深度学习数据驱动模型融合用于模型推理,并输出预测属性的数值;机理模型计算得出的数据与深度学习模型预测得到的特征相结合相互补充,提升了分子属性预测的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图神经网络的数据-机理驱动的材料属性预测方法的执行流程示意图;

图2是本发明实施例提供的图神经网络的数据-机理驱动的材料属性预测方法整体的处理流程的示意图;

图3是本发明实施例提供的获取待预测材料分子的描述符特征和图结构的示意图;

图4是本发明实施例提供的深度学习网络结构示意图;

图5是本发明实施例提供的修正模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示,本发明实施例提供了一种图神经网络的数据-机理驱动的材料属性预测方法,该方法包括:

S1,获取待预测材料分子的描述符特征和图结构;

需要说明的是,由于分子数据集通常只包含分子的结构化特征,而没有描述符特征,这些特征描述符可以很好的对分子的三维结构信息进行补充。因此,本实例为了解决图结构特征不够丰富的问题,获取了分子的描述符特征,进行信息互补。

S2,利用特征工程筛选出最终的特征描述符;

需要说明的是,本实施例使用特征工程的方法来筛选出最相关的特征。具体地,使用x

S3,利用图卷积和图注意力网络提取不同层次的分子图特征;

具体地,在本实施例中,提取不同层次的分子图特征方法为:构建包含不同卷积数量的特征提取层提取不同层次的分子特征,浅层的图卷积获取局部的特征信息,深层的图卷积获取全局的长范围的特征信息。不同层次的特征信息通过拼接的方式进行融合,输入到全局池化层,得到最后的图特征。图卷积可以对分子中原子的邻居信息进行聚集,图卷积的层数越多,可获取的特征信息越广。图注意力可以对每个原子周围的邻居节点进行权重的调整。图网络的输入为三元组{V,E,A},其中V表示构成分子的原子的特征矩阵,E表示边的特征矩阵,A表示图的邻接矩阵。具体的特征金字塔构建方法如下:

X

X

X

X

X

其中,GCN表示图卷积网络层,GAT表示图注意力网络层;X

S4,利用特征融合层将分子图特征与描述符特征相融合;

具体地,在本实施例中,特征融合层将经过特征工程筛选得到的描述符特征与经过图神经忘了特征提取到的分子图特征相融合。两者按照相同的维度对特征进行拼接,并使用全连接层和非线性激活函数来更好的融合特征。描述符特征是基于电子和外围结构进行建模的,这些计算方法包含了大量的三维信息和核外电子的相互作用信息,可以用来补充图结构的信息丢失问题。具体的特征融合方法如下:

X

X

X

S5,利用修正模块来将计算值和实验值进行更好的融合;其中,所述的计算值为第一性原理模拟计算得出的数值,实验值为实验测得的实际的材料属性;

具体地,在本实施例中,为了更好的将计算值和实验值进行更好的融合,使用实验值来构造深度学习的预测标签L。深度学习预测标签L既考虑了深度学习模型的预测结果,又考虑了真实的实验数据。具体的预测标签创建方法如下:

L=F(L

其中,L

S6,将机理驱动模型的计算值与深度学习数据驱动模型融合用于模型推理,并输出预测属性的数值;

具体地,在本实施例中,机理驱动模型是通过公式计算出分子的属性数值,机理驱动模型产生的结果是可信的。通过机理驱动模型来对深度学习模型进行调制,增强深度学习模型输出的准确性。具体的模型输出计算方式如下:

O

进一步地,本实施例的图神经网络的数据-机理驱动的材料属性预测方法所采用的网络模型的网络结构如图2所示。

实施例一

在本实施例中,使用收集好地分子数据集来验证图神经网络的数据-机理驱动的材料属性预测方法的效果。分子数据集包括4208条数据,每个分子都包括:图结构、描述子、实验值和计算值。图结构包括图中原子的特征、键的特征。描述子包括:相对分子质量、重原子相对质量、氨基和羟基基团数量、硝基数量、氢受体数量、氢给体数量、可旋转键数量、价电子数量、相对分子质量、重原子相对质量、氨基和羟基基团数量。分子数据集的收集方法如图3所示。

本模型训练的batch size的大小为32,使用Adam优化器进行参数优化并且设置其初始学习率为0.001,之后根据验证集结果降低到0.0001。整个训练集共训练了120个epoches,每个批次大小为32。数据集分为训练集、验证集和测试集三部分,比例为8:1:1。评价指标为平均绝对误差。

表1实验数据(图结构和描述符)及其解释

具体的实施步骤为:

(1)获取待预测材料分子的描述符特征和图结构。分子特征收集方法如图所示,从PubChem网站获取图结构信息以及实验数据。使用开源化学信息软件rdkit收集分子描述符特征。

(2)使用特征工程的方法对分子描述符特征进行筛选。

(3)使用具有不同层次的图卷积和图注意力网络来提取分子图的结构化特征信息。

(4)将描述符特征与图神经网络的输出进行融合。使用修正模块来利用实验值构建出更准确的标签,对图神经网络的训练进行指导。

(5)将机理驱动模型的计算值与深度学习数据驱动模型融合用于模型推理,并输出预测属性的数值。

进一步地,将本实施例的图神经网络的数据-机理驱动的材料属性预测方法记为MD-GNN,网络的详细结构如图4所示。为了证明本实施例提出的特征融合方法在提升分子属性预测准确率上的有效性,设置了三组实验为:仅使用图结构进行属性预测,使用的模型包括ene-s2s、GAT、GraphSage和SchNet,仅使用分子描述符进行属性预测,使用的传统机器学习模型包括随机森林,梯度提升决策树和多层感知机,将两者融合的MD-GNN模型,在验证特征融合的准确性时,为了控制影响因素,没有使用修正模块,直接使用计算值作为标签进行训练。

表2不同角度的粗糙度类别预测准确率(%)

表2给出了不同角度的粗糙度类别预测准确率,使用图结构+描述符的特征要比单独使用图结构或者使用描述符特征效果要好。融合模型比仅使用ene-s2s模型的损失降低了0.151,比GAT模型的损失降低了0.156,比GraphSages模型的损失降低了0.175,比SchNet模型的损失降低了0.158。同时通过对比仅使用图结构特征和仅使用描述符特征可以发现,图结构特征的损失要比描述特征更低,说明对于分子结构来说,图结构特征要更重要。

为了说明修正模块的有效性,对提出的MD-GNN模型与ene-s2s、GAT、GraphSage和SchNet进行了对比实验。在校正块中,标签由实验数据和计算数据构成。然后,通过M-D融合块将基于机制的模型融合到人工智能模型中,以调节模型预测。与ene-s2s、GAT、GraphSage和SchNet进行了比较,表3列出了添加修正模块和不添加修正模块的实验结果对比。

表3添加修正模块和不添加修正模块的实验结果对比

为了观察校正块的性能,在表3中,将ene-s2s、GAT、GraphSage和SchNet分别与未经校正的校正块进行比较,在未经校正的情况下,分别使用计算值和实验值作为标签,并计算了模型输出与测试集实验值之间的误差。该模型仅以计算值为标志,与实际实验值均存在较大误差。当使用实验值作为标签时,误差也很高,这是因为实验中的数据不是完全干净的,使得模型难以拟合分布。

表4中的MAE表明,组合机制驱动的数据对于预测真实实验特性至关重要,并且在组合所提出的校正块后,误差都减小了。

综上,本实施例的方法将分子描述符特征与图结构特征相融合输入到网络模型中预测分子的属性。同时,为了更好的提升图神经网络的特征学习能力,引入了修正模块,缩小了计算值与实验值之间的差距。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号