首页> 中国专利> 新药进展关系抽取方法及装置

新药进展关系抽取方法及装置

摘要

本发明公开了一种新药进展关系抽取方法及装置,该方法包括:获取医药相关的资讯文本序列;获取所述文本序列的BERT编码序列;抽取所述文本序列中的所有药物名称实体;依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组,所述关系三元组包括:药物名称实体、关系、关联实体。利用本发明,可以从海量资讯信息中准确、高效地得到新药进展情况。

著录项

  • 公开/公告号CN112507009A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利权人 药渡经纬信息科技(北京)有限公司;

    申请/专利号CN202011402141.8

  • 申请日2020-12-02

  • 分类号G06F16/25(20190101);G06F40/289(20200101);G06F40/295(20200101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11560 北京智桥联合知识产权代理事务所(普通合伙);

  • 代理人金光恩

  • 地址 100085 北京市海淀区上地五街7号1层105室

  • 入库时间 2023-06-19 10:16:30

说明书

技术领域

本发明涉及信息处理领域,具体涉及一种新药进展关系抽取方法及装置。

背景技术

生物医药行业包括化学药、生物药、中药、医疗器械的制造、研发、流通和义务服务,新药研发是其中的一个重要组成部分。新药物研发是一个持续较长周期的过程,药物名称是药物研发进程中不断演化的产物,由研发代码、活性成分、商品名组成。其中,研发代码没有行业规范,起名比较随意,一般是字母开头加几位数字;活性成分可以是化学分子式名称,也可能是一个代称;商品名可以是任何名词。

目前,随着互联网行业的快速发展,各种新媒体资讯网站不断涌现,如微博、微信公众号等媒体平台,生物医药行业新闻资讯不再局限在NMPA(国家药品监督管理局)、FDA(食品药品监督管理局)及EMA(欧洲药品管理局)等政府机构网站上,超过40%的药物研发进展由传统新闻媒体报导,而如何从海量新闻资讯数据中获得药物研发进展信息是业界急需解决的一个问题。

发明内容

本发明提供一种新药进展关系抽取方法及装置,可以从海量资讯信息中准确、高效地得到新药进展情况。

为此,本发明提供如下技术方案:

一种新药进展关系抽取方法,所述方法包括:

获取医药相关的资讯文本序列;

获取所述文本序列的BERT编码序列;

抽取所述文本序列中的所有药物名称实体;

依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组,所述关系三元组包括:药物名称实体、关系、关联实体。

可选地,所述获取所述文本序列的BERT编码序列包括:

对所述文本序列按字切分并输入BERT编码器,得到BERT编码序列。

可选地,所述抽取所述文本序列中的药物名称实体包括:

对所述文本序列进行分词,根据分词得到的各词单元查找领域知识库得到所述文本序列中的药物名称实体;和/或

对所述BERT编码序列进行层归一化处理;

将层归一化处理后的编码序列输入二分类器,预测得到药物名称实体的位置;

根据所述药物名称实体的位置得到所述文本序列中的药物名称实体。

可选地,所述依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组包括:

(1)依次将各药物名称实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第一测试序列;

(2)将所述第一测试序列输入所述预测模型,根据所述预测模型的输出得到基于所述药物名称实体的关系三元组。

可选地,所述依次将各药物名称实体作为条件,利用预先训练的关系预测模型预测得到实体关系三元组包括:

(1)依次将各药物名称实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第一测试序列;

(2)利用所述第一测试序列及关联实体模型,预测得到各关联实体;

(3)依次将所述药物名称实体的编码向量及各关联实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第二测试序列;

(4)利用所述第二测试序列及关系模型,预测得到所述药物名称实体与所述关联实体的关系;

(5)遍历完所有的药物名称实体及关联实体后,得到具有完整的药物名称实体、关系、关联实体的关系三元组。

一种新药进展关系抽取装置,所述装置包括:

文本获取模块,用于获取医药相关的资讯文本序列;

编码模块,用于获取所述文本序列的BERT编码序列;

实体抽取模块,用于抽取所述文本序列中的所有药物名称实体;

关系确定模块,用于依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组,所述关系三元组包括:药物名称实体、关系、关联实体。

可选地,所述编码模块包括:

切分单元,用于对所述文本序列按字切分;

编码单元,用于将切分后的字序列输入BERT编码器,得到编码序列。

可选地,所述实体抽取模块包括:第一抽取模块、和/或第二抽取模块;

所述第一抽取模块包括:

分词单元,用于对所述文本序列进行分词,得到各词单元;

查找单元,用于根据所述词单元查找领域知识库得到所述文本序列中的药物名称实体;

所述第二抽取模块包括:

层归一化处理单元,用于对所述BERT编码序列进行层归一化处理;

位置预测单元,用于将层归一化处理后的编码序列输入二分类器,预测得到药物名称实体的位置;

实体确定单元,用于根据所述药物名称实体的位置得到所述文本序列中的药物名称实体。

可选地,所述关系确定模块包括:

第一处理单元,用于依次将各药物名称实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第一测试序列;

三元组预测单元,用于将所述第一测试序列输入所述预测模型,根据所述预测模型的输出得到基于所述药物名称实体的关系三元组。

可选地,所述关系确定模块包括:

第一处理单元,用于依次将各药物名称实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第一测试序列;

关联实体预测单元,用于利用所述第一测试序列及关联实体模型,预测得到各关联实体;

第二处理单元,用于依次将所述药物名称实体的编码向量及各关联实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第二测试序列;

关系预测单元,用于利用所述第二测试序列及关系模型,预测得到所述药物名称实体与所述关联实体的关系;

输出单元,用于输出具有完整的药物名称实体、关系、关联实体的关系三元组。

本发明实施例提供的新药进展关系抽取方法及装置,获取医药相关的资讯文本序列,对其进行编码得到BERT编码序列,先进行主实体即药物名称实体的抽取,在得到药物名称实体后,再依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组,所述关系三元组包括:药物名称实体、关系、关联实体,从而可以从海量资讯信息中准确、高效地得到新药进展情况。

进一步地,在进行药物名称实体抽取时,不仅可以利用领域知识库或模型方式抽取,也可以将两种方式相结合,保证抽取出资讯文本中的所有药物名称实体。

进一步地,考虑到目标实体词比非目标实体词要少得多,面临类别不均衡的问题,在利用模型方式进行药物名称实体抽取时,将概率值以二次方的形式表示,从而可以不用改变原来内积(概率值p通常是内积加sigmoid得到的)的分布就能使得分布更加贴近目标,而不改变内积分布通常来说对优化更加友好,可以大大加快收敛速度。

附图说明

图1是本发明实施例新药进展关系抽取方法的流程图;

图2是本发明实施例中根据药物名称实体预测关系三元组的一种流程图;

图3是本发明实施例中根据药物名称实体预测关系三元组的另一种流程图;

图4是本发明实施例新药进展关系抽取方法的原理图;

图5是本发明实施例新药进展关系抽取装置的一种结构框图。

具体实施方式

本发明实施例提供一种新药进展关系抽取方法及装置,获取医药相关的资讯文本序列,对其进行编码得到BERT编码序列,先进行主实体即药物名称实体的抽取,在得到药物名称实体后,再依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组,所述关系三元组包括:药物名称实体、关系、关联实体,从而可以从海量资讯信息中准确、高效地得到新药进展情况。

如图1所示,是本发明实施例新药进展关系抽取方法的流程图,包括以下步骤:

步骤101,获取医药相关的资讯文本序列。

其中,所述资讯文本可以通过多种渠道和方式来获得,如微博、微信公众号等媒体平台,NMPA、FDA、EMA等政府机构网站,医学报刊、杂志等媒体,对此本发明实施例不做限定。需要说明的是,由于媒体形式的不同,在获取相应的资讯文本时有些还需要做一些特定的处理,比如针对图像形式的数据源,需要文本识别;对于音视频形式的数据源,需要进行语音识别等。这些处理都可以采用现有技术来完成,对此本发明实施例不做限定。

步骤102,获取所述文本序列的BERT编码序列。

BERT(Bidirectional Encoder Representations from Transformers)是一种新型的语言模型,所述BERT编码序列是指所述文本序列中每个字在BERT字典中的ID。

具体地,先对所述文本序列按字切分,然后输入BERT编码器,得到BERT编码序列。比如,输入“HPV疫苗”,输出BERT编码序列为[11068,455,5729];

步骤103,抽取所述文本序列中的所有药物名称实体。

在实际应用中,可以基于领域知识库或模型的方式进行实体抽取。

所述领域知识库具体可以包含多种实体,比如适应症、药物、靶点、公司等医药相关概念,还可包括多种医学关系。

比如,在本发明实施例中,所述领域知识库主要分为两部分,命名实体词库、语义关系。其中,所述命名实体词库可以包括:第三方标准词库和专家词典。所述第三方标准词库比如可以有:疾病领域专业词库、适应症专业词库、临床用语专业词库、生物医药领域组织机构库等;所述专家词典可以是由医药领域专家整理标注的实体词。所述语义关系可以包括:等级关系、关联关系;其中,所述关联关系可包括:概念相关、空间相关、功能相关等各种关系。

需要以领域知识库中的药物实体词汇作为基础词典,分词工具加载该基础词典对所述文本序列进行分词,根据分词得到的各词单元与基础词典中的药物实体匹配,得到所述文本序列中的药物名称实体。

比如,将整句话传入jieba分词器,结合所述领域知识库中的药物名称词典,输出得到药物名称实体字符串,根据该字符串在文本序列中的起始位置和终止位置,即可得到药物名称实体对应的BERT编码向量。

利用模型方式抽取药物名称实体的过程如下:

首先,对所述BERT编码序列进行层归一化处理,然后将层归一化处理后的编码序列输入二分类器,预测得到药物名称实体的位置;根据所述药物名称实体的位置得到所述文本序列中的药物名称实体。

归一化处理的目的是为了保证数据的一致性,归一化处理的通用公式如下:

其中,μ是平移参数(均值),σ是缩放参数(方差),b是再平移参数,g是再缩放参数。

层归一化处理(Layer Normalization)是指对一个中间层的所有神经元进行归一化,其目的是使输入数据的分布更稳定,降低各维度数据的方差,使后续深度网络计算更稳定。层归一化处理也遵循上述通用公式(1),特殊之处是求解μ和σ的方向是横向(同一层网络)的。

需要说明的是,在本发明实施例中,利用模型预测得到的药物名称实体的位置包括该实体的起始位置和结束位置。

进一步地,考虑到有些新词可能领域知识库中还未收录,因此在实际应用中,还可以将上述两种方法相结合,以领域知识库中的药物名称为主,以模型方式的识别结果为辅助,充分利用各自的优点,即领域知识库匹配的准确性、以及模型方式适用的广泛性,抽取出文本序列中的所有药物名称实体。

需要说明的是,针对由于目标实体词比非目标实体词要少得多而引起的类别不均衡的问题,在利用模型方式进行药物名称实体抽取时,可以采用现有的一些调节技术,比如focal loss、或者人工调节类权重等。

另外,本发明实施例还提供样本均衡调节方法,具体地,将代表类别1(即目标实体词)的概率表示为p

下面从loss角度,简要说明概率值表示为p

假设标签为t∈{0,1},

概率值表示为p的情况下,loss为:-tlogp-(1-t)log(1-p);

概率值表示为p

由于-tlogp

相比于focal loss或人工调节类权重,上述自适应调整loss权重的方式不改变原来内积(p通常是内积加sigmoid得到的)的分布就能使得分布更加贴近目标,而不改变内积分布通常来说对优化更加友好。

步骤104,依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组,所述关系三元组包括:药物名称实体、关系、关联实体。

在抽取得到药物名称实体后,可以利用预先训练的预测模型预测得到关系三元组。为了方便描述,将所述关系三元组表示为:(s,p,o),其中,s表示药物名称实体,o表示所述药物名称的关联实体,p表示所述药物名称实体与所述关联实体的关系。

在抽取所述关系三元组时,可以采用以下两种方式:

方式一:先预测s,然后根据s来预测该s对应的o,然后根据s、o来预测s、o的关系p。

图2示出了本发明实施例中根据药物名称实体预测关系三元组的一种流程图,包括以下步骤:

步骤201,将药物名称实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第一测试序列。条件层归一化是层归一化的一种特殊改造方法,是在已有的层归一化基础上增加约束条件,使神经网络能够结合约束条件进行预测。

参照上面提到的归一化处理的通用公式,对于已经预训练好的模型来说,已经有现成的g和b了,它们都是长度固定的向量。为此,在本发明实施例中,通过两个不同的变换矩阵,将输入条件s变换到跟g和b一样的维度。例如g的维度是[50,768],限定条件的词向量c维度是[100,768],随机生成变化矩阵t维度是[50,100],进行矩阵乘法t*c,最终获得的矩阵gc的维度是[50,768]。

然后,将两个变换结果分别加到g和b上,即:

其中,g

步骤202,利用所述第一测试序列及关联实体模型,预测得到各关联实体。

所述关联实体模型可以采用二分类器,将所述第一测试序列输入所述二分类器,根据二分类器的输出得到与所述药物名称实体相关的关联实体。

步骤203,获取一个关联实体。

步骤204,将所述药物名称实体的编码向量及所述关联实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第二测试序列。

步骤205,利用所述第二测试序列及关系模型,预测得到所述药物名称实体与所述关联实体的关系。

所述关系模型可以采用二分类器,将所述第二测试序列输入所述二分类器,根据二分类器的输出得到所述药物名称实体与所述关联实体的关系。

步骤206,判断是否还有未预测的关联实体;如果是,则返回步骤203;否则,执行步骤207。

步骤207,获取具有完整的药物名称实体、关系、关联实体的关系三元组。

需要说明的是,对于抽取到的每个药物名称实体,都可按照图2所示流程来得到基于该药物名称实体的关系三元组。

方式二:先预测s,然后根据s来预测该s所对应的o及p,即P(s,p,o)=P(s)P(o|s)P(p|s,o)。

图3示出了本发明实施例中根据药物名称实体预测关系三元组的另一种流程图,包括以下步骤:

步骤301,将药物名称实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第一测试序列。

步骤302,将所述第一测试序列输入所述预测模型,根据所述预测模型的输出得到基于所述药物名称实体的关系三元组。

同样,对于抽取到的每个药物名称实体,都可按照图2所示流程来得到基于该药物名称实体的关系三元组。

需要说明的是,在实际应用中,可以按照图4所示本发明方法的原理搭建一个用于抽取所述关系三元组的深度学习模型,该深度学习模型可以实现上述药物名称实体抽取、关联实体预测、关系预测功能。所述深度学习模型可以使用人工标注数据训练,得到模型参数。在训练好的深度学习模型基础上,即可进行s、p、o实体关系抽取工作。

本发明实施例提供的新药进展关系抽取方法,通过获取医药相关的资讯文本序列,对其进行编码得到BERT编码序列,先进行主实体即药物名称实体的抽取,在得到药物名称实体后,再依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组,所述关系三元组包括:药物名称实体、关系、关联实体,从而可以从海量资讯信息中准确、高效地得到新药进展情况。

进一步地,在利用模型方式进行药物名称实体抽取时,将概率值以二次方的形式表示,从而可以不用改变原来内积(概率值p通常是内积加sigmoid得到的)的分布就能使得分布更加贴近目标,而不改变内积分布通常来说对优化更加友好,可以大大加快收敛速度。

相应地,本发明实施例还提供一种新药进展关系抽取装置,如图5所示,是该装置的一种结构框图。

在该实施例中,所述装置包括以下各模块:

文本获取模块501,用于获取医药相关的资讯文本序列;

编码模块502,用于获取所述文本序列的BERT编码序列;

实体抽取模块503,用于抽取所述文本序列中的所有药物名称实体;

关系确定模块504,用于依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组,所述关系三元组包括:药物名称实体、关系、关联实体。

其中,所述编码模块501具体可以包括:切分单元和编码单元。所述切分单元用于对所述文本序列按字切分;所述编码单元用于将切分后的字序列输入BERT编码器,得到编码序列。

在实际应用中,所述实体抽取模块503可以基于领域知识库和/或模型的方式进行实体抽取。相应地,所述实体抽取模块503可以包括:第一抽取模块、和/或第二抽取模块。其中:

所述第一抽取模块包括以下各单元:

分词单元,用于对所述文本序列进行分词,得到各词单元;

查找单元,用于根据所述词单元查找领域知识库得到所述文本序列中的药物名称实体。

所述第二抽取模块包括以下各单元:

层归一化处理单元,用于对所述BERT编码序列进行层归一化处理;

位置预测单元,用于将层归一化处理后的编码序列输入二分类器,预测得到药物名称实体的位置,该位置包括该实体的起始位置和结束位置;

实体确定单元,用于根据所述药物名称实体的位置得到所述文本序列中的药物名称实体。

同时利用第一抽取模块和第二抽取模块进行药物名称实体抽取时,可以以领域知识库中的药物名称为主,以模型方式的识别结果为辅助,充分利用各自的优点,即领域知识库匹配的准确性、以及模型方式适用的广泛性,抽取出文本序列中的所有药物名称实体。

上述关系确定模块504可以利用预先训练的预测模型预测得到关系三元组。在实际应用中,所述预测模型可以是基于药物名称实体预测其关联实体及两者关系的一个模型,也可以是包括两个模型,即基于药物名称实体预测关联实体的模型、以及基于药物名称实体和关联实体预测两者关系的模型。

比如,所述关系确定模块的一种具体结构可以包括以下各单元:

第一处理单元,用于依次将各药物名称实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第一测试序列;

三元组预测单元,用于将所述第一测试序列输入所述预测模型,根据所述预测模型的输出得到基于所述药物名称实体的关系三元组。

再比如,所述关系确定模块的另一种具体结构可以包括以下各单元:

第一处理单元,用于依次将各药物名称实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第一测试序列;

关联实体预测单元,用于利用所述第一测试序列及关联实体模型,预测得到各关联实体;

第二处理单元,用于依次将所述药物名称实体的编码向量及各关联实体的编码向量作为条件对所述BERT编码序列进行条件层归一化处理,得到第二测试序列;

关系预测单元,用于利用所述第二测试序列及关系模型,预测得到所述药物名称实体与所述关联实体的关系;

输出单元,用于输出具有完整的药物名称实体、关系、关联实体的关系三元组。

本发明实施例提供的新药进展关系抽取装置,通过获取医药相关的资讯文本序列,对其进行编码得到BERT编码序列,先进行主实体即药物名称实体的抽取,在得到药物名称实体后,再依次将各药物名称实体作为条件,利用预先训练的预测模型预测得到关系三元组,所述关系三元组包括:药物名称实体、关系、关联实体,从而可以从海量资讯信息中准确、高效地得到新药进展情况。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称的存储介质,如:ROM/RAM、磁碟、光盘等。

相应地,本发明实施例还提供一种用于新药进展关系抽取方法的装置,该装置是一种电子设备,比如,可以是移动终端、计算机、平板设备、个人数字助理等。所述电子设备可以包括一个或多个处理器、存储器;其中,所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面各实施例所述的方法。

以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号