首页> 中国专利> 基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法

基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法

摘要

本发明涉及基于人工智能的链接预测研究方法领域,公开了基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法。技术方案:根据实体所属类别进行图谱设计;根据图谱设计获取相应的医疗数据;对原始数据进行处理;对处理后的原始语料进行命名实体识别和关系抽取;构建知识图谱。有益效果:本发明基于知识图谱的基础上引入图神经网络,将知识图消息传递纳入到图神经网络预测中;再引入注意力机制有效提取重要的局部和全局邻居,从而更好地学习节点的局部和全局表示;进一步聚合了原始特征与局部和全局表示,从而得到特定的特征表示;最后,通过考虑不同特征图的重要性来集成特定于特征的表示;有助于利用独立性问题,避免人工特征工程。

著录项

  • 公开/公告号CN114969369A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 大连民族大学;

    申请/专利号CN202210600385.X

  • 申请日2022-05-30

  • 分类号G06F16/36(2019.01);G06F40/295(2020.01);G06F16/28(2019.01);G06F16/951(2019.01);G06F40/279(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);G06N5/02(2006.01);G06K9/62(2022.01);

  • 代理机构大连智高专利事务所(特殊普通合伙) 21235;

  • 代理人马庆朝

  • 地址 116600 辽宁省大连市经济技术开发区辽河西路18号

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/36 专利申请号:202210600385X 申请日:20220530

    实质审查的生效

说明书

技术领域:

本发明涉及基于人工智能的链接预测研究方法领域,特别涉及基于知识图谱的链接预测方法和基于该方法对人类癌症合成致死预测的医疗领域进行研究。

背景技术:

知识图谱是由语义网络发展而来的,通过将实体表示成节点,实体之间的语义关系表示成连接节点的边,从而构造出一个有向图,可以将知识表示成更加直观的网络化结构。这种通过图结构对数据进行表示的方式,让计算机更高效地组织和管理大量的信息数据,更进一步地实现知识的向量嵌入,检索,预测和推理。然而,随着对知识图谱的深入研究,知识图谱被应用到各个领域后发现应用过程中依旧存在一些问题需要被解决。

其中限制知识图谱广泛应用的最主要困难是:各应用中使用的知识图谱(KG) 往往是不完备的,即KG中关系的缺失或者实体属性的缺失。信息不完备问题极大的限制了当前阶段知识图谱的发展与广泛的应用,即使是信息巨大的、最先进的、包含数亿三元组的KG也仍是不完整的。其原因可能是构建KG的数据本身就是不完备的,也可能是在构建KG过程中进行信息抽取时无法识别到一些特殊的关系或者实体。因此,面向知识图谱的知识补全成为解决该问题的一个重要任务,而链接预测则是知识补全任务的一个主要方法,是一种有前途的、广泛研究的、旨在解决KG的不完整的任务。

链接预测是将知识图谱中实体和关系的内容映射到连续向量空间中,对知识图谱中的实体或关系进行预测,包涵(h,r,?),(?,r,t),(h,?,t)三种知识图谱补全任务。即基于图谱中已有的事实或关系推断出未知的事实或关系,是对知识图谱中节点间的隐含关系进行挖掘的一个重要研究方向。传统对链接预测的研究基本上是面向不同的应用场景,解决不同实际问题而展开的。时至今日,链接预测问题已经从最开始的准确表述问题进化成了如今的推理及相关问题,研究已经开始趋向于图谱中的隐含信息挖掘,所以对链接预测等相关问题进行研究具有现实应用价值。链接预测目前应用广泛的领域如下:

(1)在社交网络中向用户推荐熟人和相似的用户,大多数社交网络都使用链接预测技术来推荐熟人。

(2)用于在已知部分节点类型的网络中预测未标签节点的类型,如用于判断一篇学术论文的类型或从犯罪网络中预测某些犯罪行为等。

(3)在生物领域,链接预测用来发现可以发生相互作用的蛋白质。由于目前有很多蛋白质被人们所不熟悉,所以需要花费大量的实验时间和金钱成本进行研究。如果采取链接预测的方式就可以做到提前较准确的预测,则一定程度上减少了时间和金钱的成本。

人类癌症合成致死预测是链接预测在生物医学领域一个很重要的应用。随着人们生活压力越来越大和快餐式的生活方式越来越频繁,癌症已经成为了危害人类健康的主要杀手之一,其主要原因是细胞生长不受控制导致过度增殖而引起的。传统的化学疗法旨在通过药物靶向快速分裂的细胞从而杀死癌细胞。当患者使用这些药物时,也会快速损害分裂的正常细胞,并且对不能迅速分裂的正常细胞也有毒性,因此限制了这些抗癌药物的有效性。与正常细胞相比,癌细胞内的表观遗传、遗传改变及其微环境的变化,会增加其对特定分子靶标的需求,从而为选择性杀死癌细胞提供了机会。

合成致死(synthetic lethality,SL)是指对于细胞中的两个基因,其中任何一个单独突变或者不发挥作用时,都不会导致细胞死亡,而两者同时突变或者不能表达时,就会导致细胞死亡。它是发现抗癌药物靶点的一个有前途的方法,作为一种选择性杀死癌细胞的新的靶向策略,为癌症的治疗带来了新的机遇。在合成致死基因对中,其中一个基因的突变不会影响细胞的生存能力,然而两个基因同时突变会导致细胞死亡。通过抑制致癌突变基因的合成致死伙伴基因,可以杀死致癌基因发生突变的癌细胞,并且不损害正常细胞。此外,合成致死为发现新的药物靶标和潜在的癌症药物联合策略提供了可能性。对于SL pair的湿实验筛选存在着成本高、成批效应和脱靶等问题。目前用于SL预测的计算方法包括以下三种方法:

第一种是基于代谢网络模型进行基因敲除模拟,第二种是基于知识的数据挖掘即面向知识的方法,主要是利用特定领域的知识进行特征工程。以上这两类严重依赖于代谢网络模型、领域知识和基因组数据,不能充分利用已知SL pair的有价值信息。第三类方法应用机器学习算法,特征是基于领域知识和启发式函数设计的。其中基于GNN的方法往往将每个SL pair视为一个独立的样本,并没有考虑潜在的生物学机制;并且现有方法支持向量机等注入基因组和蛋白质组数据来促进SL预测。基于GNN的方法可对输入特征等信息进行编码,方法都是基于领域知识手工提取特征,会遗漏一些特征。

综上所述,当前现有方法预测人类合成致死基因还面临的三个重要的挑战:虽然大多数现有的方法倾向于假设SL pair是相互独立的,却没有考虑到潜在的共享生物机制;另外一些方法虽已经结合了基因组和蛋白质组数据来帮助SL预测,但这些方法涉及手工特征工程,并且严重依赖领域知识;并且,现有的方法预测人类合成致死基因成本较高,需要耗费大量劳动和时间。根据以上分析,本文借鉴知识图谱和图神经网络的思想,将知识图谱链接预测与图神经网络、 Bi-LSTM以及注意力机制Attention等方法相结合来解决此类问题。可知基于知识图谱和混合网络的人类癌症致死预测方法研究对医疗领域尤其是癌症治疗有着重要意义。

发明内容

本发明需要且能够解决的技术问题:

本发明要解决的技术问题是提供一种基于知识图谱和混合网络(深度学习网络模型)的人类癌症致死预测研究方法,该方法能够以知识图谱形式存储并预测人类癌症合成致死的相关信息:包括基因、化合物、疾病、生物过程在内的11 种实体和24种可能与SL相关的关系构建。通过对构建好的知识图谱进行信息传递,避免了人工特征提取工程,有助于利用独立性解决问题。实现以自然语言句子的形式输入病人信息,便可从知识库中搜索关联信息,预测是否会造成人类癌症细胞致死,并以自然语言的方式返回给医生。医生可通过此方式提前获取患者病情发展的详细信息,可以做好更充分的知识储备为癌症病人制定相应的治疗方案,为患者治疗提供便捷性,争取了时间和希望,也使医生可以更精确、快速地获取需要的信息。

将知识图谱和深度学习模型结合起来引入到SL基因关系预测问题中并对其进行研究,取得了良好的效果。这说明基于图神经网络的深度学习模型,能通过结合知识和数据来更好地解决生物医药领域的复杂问题。新预测的SL基因对将帮助生物学家更快地筛选到新的抗癌药物靶点,实现用AI技术加速新药研发的进程。此外,通过知识图谱来揭示SL背后的生物学机理,使深度学习模型具有更好的可解释性,促进生物学知识的发现,加速癌症药物靶点发现,促进AI制药技术的发展。对于生物信息领域的研究具有重要意义。

本发明具体技术方案:

一种基于医疗领域的人类癌症合成致死预测,其知识图谱构建方法,步骤如下:

步骤1:根据实体所属类别进行图谱设计;

步骤2:根据图谱设计获取相应的医疗数据;

步骤3:对原始数据进行处理;

步骤4:对处理后的原始语料进行命名实体识别和关系抽取;

步骤5:构建知识图谱。

进一步的,针对步骤1中,数据集包含了10004个基因之间的72804对基因关系。KG表示为SynLeth KG,包含11个实体之间的24种关系。在24种关系中,有16种直接与基因有关,如(gene,regulates,gene)、(gene,interactions,gene) 等。11种实体中有7种与基因直接相关,即途径、细胞成分、生物过程、分子功能、疾病、化合物等。首先在SynLethKG数据库中筛选出需要的信息。

进一步的,针对步骤2,根据图谱设计,通过网络爬虫从在SynLethDB数据库中获取需要的相关结构化数据、半结构化数据、非结构化数据。

进一步的,针对步骤3,使用jieba分词工具对数据进行分词和词性标注,并去除标点符号和停用词。

进一步的,针对步骤4,对于获取的半结构化数据进行整体后保存,使用深度学习方法对非结构化数据进行实体识别和关系抽取,然后将获取的数据进行知识融合。

进一步的,针对步骤5,将步骤4中整理好的数据,使用Neo4j进行存储。

本发明还包括一种基于混合网络的知识图谱人类癌症致死预测方法,步骤如下:

步骤1:对数据库中的数据进行提取;

步骤2:对基因对进行解析得到gene-gene矩阵;

步骤3:将构建好的知识图谱和得到的基因-基因对作为输入传入到模型中,整体框架如图5所示;

步骤4:进入图神经网络模型,从而获取基因的邻域表示,对获取的信息进行聚合;

步骤5:将聚合后的信息作为Bi-LSTM模型的输入,从而丰富特征提取的过程;

步骤6:将上层输出作为注意力机制模型的输入,从而捕捉多跳邻域中的实体和关系特征;

步骤7:计算模型总损失和进行优化。

进一步的,针对步骤1,SynLethDB是一个合成致死基因对的综合数据库,去除孤立节点后,最终得到的SynLethKG图包含了54012个节点和2231921条边。在数据库中筛选出需要的数据集;若未查询到对应三元组则通过爬虫技术爬取相关问答网站及论坛。

进一步的,针对步骤2,将筛选出的数据通过URI解析,转化成基因基因矩阵的形式。给定一个SL相关的基因,并从KG中构建了一个加权子图,识别出相关的节点和决定边的权重是两个关键步骤。

进一步的,针对步骤3,将步骤1中构建好的知识图谱和基因-基因矩阵做为输入,模型框架主要包括图神经网络、双向长短期记忆神经网络及注意力机制模型,总体研究框架图如图3所示。

进一步的,针对步骤4,获得输入以后,需要对实体的邻域进行采样。为每个实体抽取固定数量的k个邻居来表征其局部结构,并重复该过程H跳(H>=1)。特别地,如果一个节点的邻居数小于k,会被进行重复采样,即一个邻居可能会被多次采样。

进一步的,针对步骤5,在Bi-LSTM循环神经网络中,使用Bi-LSTM模型来对基因的序列化进行挖掘,在使用Bi-LSTM之前得先把相互作用的合成致死基因处理成序列的形式,可以捕捉原文本的长距离依赖关系以及位置信息,使用 Bi-LSTM对每个致死都提取一个状态,最后把每个致死基因的状态叠加并进行预测。

进一步的,针对步骤6,假设输入为“PARP抑制剂治疗复发性卵巢癌”,在解码器生成地点相关预测的时候注意力应放在“抑制剂”上,在解码器生成相关预测的时候应该关注“卵巢癌”这个词。因此本发明为了解决语义向量无法关注到表示序列的重要信息这一问题,引入了注意力机制。当获取的词向量被逐个送入Bi-LSTM神经网络模型之后会产生一系列的编码端隐藏状态参与到注意力系数的计算。然后在每轮训练中,解码端的输出状态也将参与注意力系数的计算,解码器的状态与隐藏状态经过加权求和后得到最终的概率分布。基于层注意力机制的特征方法,它可以在任何给定实体的邻域中同时捕获实体和关系特征。此外还在模型中封装了关系聚类和多跳关系,为基于注意力的模型的有效性提供了见解。

进一步的,针对步骤7中给模型设计了两种loss,基本loss1和loss 2,基本 loss使用cross-entropy计算,使用Adam优化算法进行优化。

本发明的有益效果是:本发明基于知识图谱的基础上引入图神经网络(GNN),将知识图(KG)消息传递纳入到图神经网络预测中。该模型利用包括基因、化合物、疾病、生物过程在内的11种实体和24种可能与SL相关的关系构建,通过对 KG进行信息传递,并将信息进行聚合,聚合后的信息传入到Bi-LSTM,丰富特征提取过程,再引入注意力机制,从多个特征图中学习节点表示。其中,注意力机制可以有效提取重要的局部和全局邻居,从而分别更好地学习节点的局部和全局表示。进一步聚合了原始特征与局部和全局表示,从而得到特定的特征表示。最后,通过考虑不同特征图的重要性来集成特定于特征的表示。有助于利用独立性问题,避免人工特征工程。

附图说明

图1为本发明整体结构图;

图2为本发明癌症合成致死预测研究流程图;

图3为本发明中数据预处理形式图;

图4为本发明中文本预处理图;

图5为本发明中癌症合成致死预测研究总体框架图;

图6为本发明中图神经网络模型工作原理图;

图7为本发明中深度学习图神经网络网络结构图;

图8为本发明中Bi-LSTM长短记忆神经网络工作原理图;

图9为本发明中注意力机制工作原理图;

图10为本发明中层注意力机制结构图;

图11为本发明中数据库可视化效果图;

图12为本发明中微信小程序页面效果图;

图13为本发明中微信小程序常见问题效果图;

图14为本发明中微信小程序预测界面可视化效果图。

具体实施方式

下面将参照附图更详细地描述本发明一种基于知识图谱医疗领域的人类癌症合成致死预测构建方法的具体操作步骤。

本发明主要包括两个模块的构建:

模块一:人类癌症合成致死知识图谱的构建;

模块二:人类癌症合成致死预测方法研究;

对于模块一,提供了一个人类癌症合成致死医疗领域知识图谱的构建方法,其整体结构如图1所示。根据需求,设计人类癌症合成致死知识图谱。并通过网络爬虫技术获得数据,对相应数据采取一定方法进行处理及抽取后将其存入 Neo4j图数据库中。下面将详细介绍每一步骤。

步骤1:图谱设计

该步骤为构建相应领域图谱最为关键的一步。经过对人类癌症合成致死医疗领域知识的了解及分析,本发明对该领域图谱的实体类别进行设计,分别包括: 11种实体中有7种与基因直接相关,即途径、细胞成分、生物过程、分子功能、疾病、化合物和解剖。它们以(基因、关系、实体)的形式存在,其中每类实体类别中包含着多个实体。其中每个实体中都包含其相应的属性信息用于刻画该实体的内在特征,定义关系来刻画每个实体和实体或属性之间的联系。它们以(基因、关系、实体)的形式存在:

步骤2:获取相应数据

根据图谱设计,使用爬虫技术爬取SynLethDB数据库、生物信息网站等结构化数据、半结构化数据和医学文章等非结构化数据。

步骤3:对原始语料进行处理

将获取的原始语料进行去停用词、删除特殊符号和重复词等处理。

步骤4:命名实体识别和关系抽取

将步骤3中处理好的数据分别进行处理。对结构化数据进行整理保存,半结构化数据进行人工抽取,非结构化数据进行语料标注后对其采用深度学习模型 BERT进行抽取。

步骤5:构建知识图谱

将步骤4中的数据使用cypher语句导入到Neo4j图数据库中。

对于模块二,提供了一种基于混合网络的知识图谱人类癌症致死预测方法研究的构建方法,包括如下步骤:

步骤1:对数据库中的数据进行提取;

在SynLethDB数据库中筛选出需要的数据集;并通过爬虫技术爬取相关问答网站及论坛整理成对应的三元组。

步骤2:对基因对进行解析得到gene-gene矩阵;

将筛选出的数据通过URI解析,转化成基因-基因矩阵的形式。

步骤3:将构建好的知识图谱和基因对作为输入传入到模型中;

构建好的知识图谱作和基因-基因矩阵做为输入,模型框架主要包括图神经网络、双向长短期记忆神经网络及注意力机制模型。

步骤4:进入图神经网络模型,从而获取基因的邻域表示,对获取的信息进行聚合;

获得输入以后,对实体的邻域进行采样。为每个实体抽取固定数量的k个邻居来表征其局部结构,并重复该过程H跳。如果节点的邻居数小于k,则进行重复采样。

步骤5:将聚合后的信息作为Bi-LSTM模型的输入,学习基因的序列表示,可以捕捉原文本的长距离依赖关系以及位置信息,从而丰富特征提取的过程。

步骤6:将上层输出作为注意力机制模型的输入,从而捕捉多跳邻域中的实体和关系特征;

通过注意力机制捕捉基因与基因之间的相互作用关系,提供了可解释性。可以在任何给定实体的邻域中同时捕获实体和关系特征,在模型中封装关系聚类和多跳关系,以有效提取重要的局部和全局邻居,从而分别更好地学习节点的局部和全局表示,提供有效性见解,完成预测。

步骤7:总损失和优化;

设计了两种loss,基本loss1和loss 2,基本loss使用cross-entropy计算,使用Adam优化算法进行优化。

实施例2

如图1所示,一种基于知识图谱医疗领域的人类癌症合成致死预测研究主要从五个方面进行构建。

步骤1:基于知识图谱医疗领域的人类癌症合成致死预测图谱的设计;

步骤2:人类癌症合成致死预测的数据获取;

步骤3:对该领域数据进行知识抽取及融合;

步骤4:构建知识图谱;

步骤5:实现基于知识图谱医疗领域的人类癌症合成致死预测研究;

下面将详细介绍每一步骤:

步骤1:根据对人类癌症合成致死信息的预测研究分析,从SynLethDB数据库、百科类网站、相关生物信息网站入手,确定知识图谱中的实体类别,实体关系及实体属性。在24种关系中,有16种直接与基因有关,11种实体中有7种与基因直接相关,它们以(基因、关系、实体)的形式存在。如(gene,regulates,gene)、 (gene,interactions,gene)、(gene,co-vary,gene)。其他8种关系与药物和化合物有关。将每个基因的途径、细胞成分、生物过程、分子功能、疾病、化合物和解剖作为描述该实体的属性,建立相应关系用以反映实体与其它实体的联系。

步骤2:通过对各大网站进行爬取后获得的数据来源主要分为三类:结构化数据、半结构化数据、非结构化数据。

步骤3:分别对不同存储形式的数据进行抽取及融合

对于结构化数据,获取后将其保存到列表中。

对于半结构化数据,对相关医学及生物信息网站的网页结构进行xpath解析,使用scrapy爬虫框架抓取网页相应的知识。

对于非结构化数据,爬取的网络文章、生物教材和杂志为大段的文本数据。因此需要对其进行命名实体识别抽取所需实体。本项目中采用联合模型BERT和 Bi-LSTM抽取特定领域的实体。主要步骤如下:

步骤⑴:使用jieba分词工具和自定义词典对收集的数据进行分词、去停用词等;将未正确分词的结果分词后添加到自定义词典中。首先将输入的问句用jieba 分词工具进行分词和去停用词后,使用gensim中的word2vec工具进行词向量的预训练,词向量的维度设置为300维,窗口大小设置为5。

步骤⑵:使用构建的语料进行预训练,采用的标记数据格式为BIO标注模式,将每个元素标记为其中之一形式(“B-XX”,“I-XX”,“O-XX”)。其中B表示开始,XX表示定义的元素类别;I表示中间;O表示其他,用于标记无关字符。

步骤⑶:本模型使用预训练模型BERT生成关于上下文信息的词向量,将训练出的词向量作为BiLSTM层的输入,获取每个单词的前后语义关系。

步骤⑷:将抽取的实体和关系进行链接、融合。

步骤4:将三元组存入Neo4j图数据库。

步骤5:如图2所示,基于知识图谱医疗领域的人类癌症合成致死预测构建步骤包括:

步骤[1]:在知识图谱基础上引入图神经网络,通过直接在图中引入这些潜在因素作为节点来缓解独立性问题。

步骤[2]:引入Bi-LSTM,丰富多跳邻域特征;

步骤[3]:引入注意力机制,捕捉多跳邻域中的实体和联系;

步骤[4]:总损失和优化;

步骤[5]:癌症合成致死预测小程序的可视化实现;

步骤[1]:给定一个癌症合成致死相关的基因,先从构建好的知谱图谱中构建一个加权子图,识别出相关的节点和决定边感重。为每个实体抽取固定数量的邻居表征局部结构,并引入参数H(CNN感知域),重复H跳过程,节点可被重复采样。然后将其信息聚合起来,作为下个网络的输入,其工作原理如图所示。

模型训练描述如下:

1)对药物实体进行邻居采样:由于每一个基因实体的邻域分布情况是不一样的,先对实体进行邻域采样。本发明考虑每个节点两跳的邻域范围,H参数可以理解为CNN中的感知域,当H=1时相当于只考虑与当前节点直接相连的邻居节点,当H=2时表示考虑二阶相连的节点情况,这样能够学习到更多的邻域实体信息,当然H可以取更大值。

每个实体抽取固定数量的k个邻居来表征其局部结构,并重复该过程H跳 (H>=1).特别地,如果一个节点的邻居数小于k,会被进行重复采样,即一个邻居可能会被多次采样。边上的权重代表关系的重要性,如果节点的邻居数SL

其中,a

2)聚合邻域信息:在这个框架中GNN是一种空间域的方法。在构建的知识图谱中,把和基因直接相连的节点定义为Nneigh(a)。由于每个药物节点邻域的分布是不同的,为了计算方便,本发明借鉴GraphSAGE方法,采用固定大小的邻域范围S(a)。采样完成之后,通过聚合的方法将实体自身的嵌入表示和邻域信息的嵌入表示聚合起来,最终得到当前实体的嵌入表示。其中,sum聚合方法是一种叠加操作,concat是一种拼接操作,neighbor只考虑邻域的信息,而忽略自身实体嵌入表示。

(1)对于子图中的每个节点进行信息的聚合与更新,在对每个节点计算加权平均和,公式如下所示:

其中,a'表示子图中的一个实体,Z(a)表示子图中的实体集合,

Q是使用softmax函数进行normalize后的基因关联分数,公式如下所示:

其中,

(2)得到中心节点的邻居的表达后,再对其进行信息的聚合与更新,公式如下所示:

其中Q表示线性transform层的权重,g表示线性transform层的偏置,

(3)在得到两个基因的表达之后,它们之间的反应概率通过下列公式计算:

其中,f()表示基因表达公式,a

步骤[2]:对上层聚合后的信息进行实体识别时,使用的是Bi-LSTM模型学习基因序列表示,丰富特征提取过程,模型如图8所示,模型训练描述如下:

由前向LSTM与后向LSTM组合而成的双向LSTM模型可以有效解f

步骤[3]:将上层输出作为注意力机制模型的输入,对于每个特征图设计节点级注意力机制来有效捕获局部和全局邻居的重要性,并分别学习节点的局部和全局表示。利用多层感知器将原始特征与局部和全局表示聚合得到特定的特征表示。为了得到最终的表示,设计了特征级别的注意力机制来整合特定的特征表示 (通过考虑不同特征图的重要性)。网络来整合节点表示。对于一个节点,在图中与其直接相连的节点定义为他的局部邻居。考虑到不同的邻居重要性不同,设计了一个节点级的注意力机制来学习节点表示。工作原理如图10所示,首先使用下面的公式计算注意力打分:

(1)对于一个节点,在图中与其直接相连的节点定义为它的局部邻居。考虑到不同的邻居重要性不同,设计了一个节点级的注意力机制来学习节点表示。首先计算注意力打分,公式如下所示:

其中,

(2)接着将注意力打分进行归一化计算,公式如下所示:

其中,

(3)同时基于局部邻居信息聚合节点v

其中,

(4)由于注意力系数的不稳定性,单个节点的注意力机制可能会引入噪声。为减少噪声,将注意力机制进一步扩展成多头注意力,重复y次,然后整合y 次学习到的表示(||表示向量串联操作)。公式如下所示:

其中,

步骤[4]:设计两种loss,loss1和loss2,loss1为基本loss。

(1)基本loss使用cross-entropy计算,公式如下:

J=min(s

其中,s

(2)||·||代表对实体embedding,关联embedding及聚合权重的L2正则:

(3)还加入了L2正则loss,公式如下所示:

其中,K表示可训练的权重矩阵,b

步骤[5]:癌症合成致死预测小程序的实现

先对小程序页面进行构思和设计,然后再在编辑区进行代码编辑和开发。开发完需要调试程序的时候需要切换到调试区,调试区有很多工具可供使用。调试完成后可在项目处进行运行和上传和预览,其编译模拟网络环境:2G/3G/4G/WiFi。程序界面如图12、图13及图14展示,例如输入“RAC突变或HRD(同源重组修复缺陷)某些突变的肿瘤对PAPR抑制剂敏感”,则输出“所以BRAC和PARP就成为合成致死的一对靶点。”即RAC突变或HRD(同源重组修复缺陷)某些突变的肿瘤对PAPR抑制剂敏感,所以BRAC和PARP就成为合成致死的一对靶点。

应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号