首页> 中国专利> 确定实体之间关联关系的方法、装置、设备和存储介质

确定实体之间关联关系的方法、装置、设备和存储介质

摘要

本申请公开了一种确定实体之间关联关系的方法、装置、设备和存储介质,应用于自然语言处理、知识图谱和深度学习技术领域。具体实现方案为:获取目标关联信息,该目标关联信息包括表示第一实体的第一词、表示第二实体的第二词和表示目标关联关系的第三词;根据目标关联关系和预设文段库中针对目标关联信息的相似文段,确定第一语义特征;根据目标关联信息和预设知识图谱,确定针对目标关联信息的描述文本;根据目标关联信息和描述文本,确定第二语义特征;以及根据第一语义特征和第二语义特征,确定第一实体与第二实体之间具有目标关联关系的置信度。

著录项

  • 公开/公告号CN112507715A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202011377531.4

  • 发明设计人 张峥;徐伟建;罗雨;

    申请日2020-11-30

  • 分类号G06F40/295(20200101);G06F40/30(20200101);G06F40/216(20200101);G06F40/289(20200101);G06F16/36(20190101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人吕朝蕙

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 10:16:30

说明书

技术领域

本申请涉及人工智能技术领域,具体涉及自然语言处理、知识图谱和深度学习技术领域,更具体地涉及一种确定实体之间关联关系的方法、装置、设备和存储介质。

背景技术

随着人工智能技术的发展,信息的电子化管理逐渐兴起。在各领域中,为了提高信息获取效率,电子化管理信息时可以对具有关联关系的信息进行关联管理。其中,信息之间的关联关系可以通过信息描述的实体之间的关联关系来确定。

相关技术中,在进行信息关联管理时,往往采用自然语言处理方法从各领域的文本数据中召回存在关联关系的两个实体,该方法对文本数据的质量要求高。再者,对于特定领域,一些特定关联关系的构建成本较高,文本中具有该特定关联关系的信息稠密度较低,采用自然语言处理方法从文本中召回具有该特定关联关系的实体的召回率有限。

发明内容

提供了一种用于提高确定关联关系准确性,利于降低目标关联关系的构建成本的确定实体之间关联关系的方法、装置、设备以及存储介质。

根据第一方面,提供了一种确定实体之间关联关系的方法,包括:获取目标关联信息,该目标关联信息包括表示第一实体的第一词、表示第二实体的第二词和表示目标关联关系的第三词;根据目标关联信息和预设文段库中针对目标关联信息的相似文段,确定第一语义特征;根据目标关联信息和预设知识图谱,确定针对目标关联信息的描述文本;根据目标关联信息和描述文本,确定第二语义特征;以及根据第一语义特征和第二语义特征,确定第一实体与第二实体之间具有目标关联关系的置信度。

根据第二方面,提供了一种确定实体之间关联关系的装置,包括:信息获取模块,用于获取目标关联信息,该目标关联信息包括表示第一实体的第一词、表示第二实体的第二词和表示目标关联关系的第三词;第一特征确定模块,用于根据目标关联信息和预设文段库中针对目标关联信息的相似文段,确定第一语义特征;文本确定模块,根据目标关联信息和预设知识图谱,确定针对目标关联信息的描述文本;第二特征确定模块,用于根据目标关联信息和描述文本,确定第二语义特征;以及置信度确定模块,用于根据第一语义特征和第二语义特征,确定第一实体与第二实体之间具有目标关联关系的置信度。

根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请提供的确定实体之间关联关系的方法。

根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本申请提供的确定实体之间关联关系的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请实施例的确定实体之间关联关系的方法、装置、设备和存储介质的应用场景示意图;

图2是根据本申请实施例的确定实体之间关联关系的方法流程示意图;

图3是根据本申请实施例的确定第一语义特征的原理示意图;

图4是根据本申请另一实施例的确定第一语义特征的原理示意图;

图5是根据本申请实施例的确定针对目标关联信息的描述文本的原理示意图;

图6是根据本申请实施例的确定实体之间关联关系的原理示意图;

图7是根据本申请实施例的确定实体之间关联关系的装置结构框图;以及

图8是用来实现本申请实施例的确定实体之间关联关系的方法的电子设备框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本申请提供了一种确定实体之间关联关系的方法。该方法可以先获取目标关联信息,该目标关联信息包括表示第一实体的第一词、表示第二实体的第二词和表示目标关联关系的第三词。随后根据目标关联信息和预设文段库中针对目标关联信息的相似文段,确定第一语义特征;以及根据目标关联信息和预设知识图谱,确定针对目标关联信息的描述文本,根据目标关联信息和描述文本,确定第二语义特征。最后根据第一语义特征和第二语义特征,确定第一实体与第二实体之间具有目标关联关系的置信度。

以下将结合图1对本申请提供的方法和装置的应用场景进行描述。

图1是根据本申请实施例的确定实体之间关联关系的方法、装置、设备和存储介质的应用场景图。

如图1所示,该实施例的应用场景100例如可以包括终端设备110和用户120。

终端设备110例如可以是能够提供交互界面且具有处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机等。

根据本申请的实施例,终端设备110例如可以根据预先训练的处理模型对两个实体词进行处理,以得到两个实体词所表示的两个实体之间的关联关系。示例性地,终端设备110例如可以提供有交互界面,用户可以通过该交互界面输入待确定关联关系的两个实体词,并选择该两个实体词的预估关联关系。经由终端设备110的处理,终端设备110可以输出该两个实体词具有预估关联关系的置信度。

根据本申请的实施例,如图1所示,该应用场景还可以包括服务器130,终端设备110与服务器130之间可以通过网络通信。例如,终端设备110可以通过网络从服务器130中获取预先训练的处理模型。

示例性地,服务器130例如还可以为向终端设备110中运行的应用程序提供支持的各种服务器。该服务器130例如还可以经由网络接收终端设备根据用户输入的两个实体词、选择的预估关联关系发送的目标关联信息,并根据该目标关联信息和处理模型确定两个实体词表示的两个实体之间具有预估关联关系的置信度。例如,服务器130例如可以为应用程序服务器、分布式系统的服务器,或者是结合了区块链的服务器。或者,服务器还可以为虚拟服务器或云服务器等。

根据本申请的实施例,如图1所示,该实施例的应用场景中还可以包括有第一数据库140和第二数据库150。其中,第一数据库140存储有大量的文本段落(下文简称为文段),第二数据库150中存储有预先构建的知识图谱(Knowledge Graph,KG)。服务器130或者终端设备110可以通过网络访问该第一数据库140和第二数据库150,以从第一数据库140中获取与目标关联信息相似的文段,并从知识图谱中抽取与两个实体词有关联关系的关联实体词。可以理解的是,第一数据库140和第二数据库150可以为两个不同的数据库,也可以为同一数据库中的不同存储分区。在一实施例中,该第一数据库140和第二数据库150例如可以为服务器130中的两个存储分区,或者,该第一数据库140和第二数据库150中的任一个可以为存储磁盘或者云数据库。

根据本申请的实施例,可以综合考虑相似的文段、关联实体词,以此抽取到两个实体词在文段中的上下文信息等特征,并根据该抽取到的特征确定两个实体之间具有预估关联关系的置信度。

根据本申请的实施例,终端设备110或服务器130例如还可以具有文本识别功能,以从文本中识别得到实体词和两个实体词之间的关联关系。随后还可以对识别到的任意两个实体词之间的关联关系进行置信度预测,以验证文本识别功能的准确性。

需要说明的是,本申请实施例提供的确定实体之间关联关系的方法一般可以由终端设备110执行,或者也可以由服务器130执行。相应地,本申请实施例提供的确定实体之间关联关系的装置一般可以设置在终端设备110中,或者也可以设置在服务器130中。

应该理解,图1中的终端设备、服务器、第一数据库和第二数据库的类型仅仅是示意性的。根据实现需要,可以具有任意类型的终端设备、服务器、第一数据库和第二数据库。

以下将结合图1描述的应用场景,通过图2~图6对本申请实施例提供的监控驾驶状态的方法进行详细描述。

图2是根据本申请实施例的确定实体之间关联关系的方法流程示意图。

如图2所示,该实施例的确定实体之间关联关系的方法200可以包括操作S210、操作S230、操作S250、操作S270和操作S290。该方法200例如可以由前文描述的终端设备执行,或者可以由服务器执行。

在操作S210,获取目标关联信息。

根据本申请的实施例,目标关联信息包括表示第一实体的第一词、表示第二实体的第二词和表示目标关联关系的第三词。

示例性地,第一词、第二词和第三词例如均可以响应于用户的输入操作而获取得到。该第一词、第二词和第三词可以组成主谓宾三元组(Subject-Predication-Object,SPO)并将该三元组作为目标关联信息。其中,S、O分别指示两个表示实体的词,P指示表示两个实体之间的关联关系的第三词。

示例性地,第一词和第二词可以通过对文本进行实体识别而抽取得到。第三词可以为预设定的词,或者,也可以通过学习文本中表示两个实体的两个实体词之间的语义联系来得到。在从文本中抽取得到第一词和第二词后,可以与第三词组成三元组SPO,并将该三元组作为目标关联信息。

根据本申请的实施例,第三词表示的目标关联关系例如可以包括以下任意一种:上下位关系、因果关系、伴随关系、并发关系、时序关系等。该目标关联关系可以根据实际应用场景进行设定,本申请对此不做限定。例如,对于医疗领域,由于表示疾病的实体之间的上下位关系构建成本较高,为了构建疾病的上下位关系,该目标关联关系可以为上下位关系。

在操作S230,根据目标关联信息和预设文段库中针对目标关联信息的相似文段,确定第一语义特征。

根据本申请的实施例,预设文段库中存储有大量的文段,该大量的文段可以通过从多种信息传播渠道获取的文本信息中抽取得到。信息传播渠道获取的文本信息例如可以包括期刊文章、专业书籍、报纸广告文本、新闻报道文本等。

示例性地,可以预先收集该些文本信息,并通过扫描等技术将文本信息电子化。随后采用光学字符识别(Optical Character Recognition,OCR)技术等对电子化的文本信息进行识别,以对文本信息进行分段处理。其中,预设文段库中的每个文段可以记载有文本信息中一个段落的信息。可以理解的是,针对不同领域可以具有不同的预设文段库。该实施例为了提高相似文段的准确性及召回率,并提高相似文段表达信息的准确性,可以将包括描述第一实体和第二实体所属领域的专业知识的多个文段构成的文段库作为预设文段库。

示例性地,为了便于查阅和调用,在得到大量的文段后,例如还可以对大量的文段建立索引,并依据建立的索引将大量的文段依次存储至前文描述的第一数据库中。

根据本申请的实施例,操作S230可以先从预设文段库中抽取到与目标关联信息相似的文段,作为针对目标关联信息的相似文段。随后对目标关联信息和相似文段进行信息融合,以抽取到表示目标关联信息的上下文信息的特征,并将该特征作为第一语义特征。

示例性地,可以先采用命名实体识别(Named Entity Recognition,NER)工具对预设文段库中各文段进行文本识别,得到各文段包括的实体词。随后从多个文段中抽取识别到的实体词包括第一词和第二词的文段,作为相似文段。可以理解的是,前文描述的用于进行文本识别的工具仅作为示例以利于理解本申请,本申请对此不做限定。

示例性地,还可以采用词频-逆文本频率(term frequency-inverse documentfrequency,TF-IDF)统计工具对文段库中的每个文段进行处理,统计得到第一词和第二词在每个文段的重要程度。随后从多个文段中抽取第一词和第二词的重要程度大于预定程度的文段,作为相似文段。

根据本申请的实施例,在得到相似文段后,可以将目标关联信息和相似文段作为第一语义特征提取模型的输入,经由语义特征提取模型处理后得到第一语义特征。其中,第一语义特征提取模型例如可以为长短期记忆网络(Long Short-Term Memory,LSTM)模型、语义表示模型(Embeddings from Language Models,ELMo)、双向转换编码器(Bidirectional Encoder Representation from Transformer,BERT)等。

本申请实施例通过对目标关联信息和相似文段进行融合来得到第一语义特征,可以使得提取的第一语义特征能够表征目标关联信息在文段中的语义信息、词法信息、句法信息等,便于提高提取的第一语义特征的丰富性和准确性。

在操作S250,根据目标关联信息和预设知识图谱,确定针对目标关联信息的描述文本。

根据本申请的实施例,预设知识图谱例如可以为根据第一实体和第二实体所属领域的大量数据构建得到。例如,可以先从大量数据中抽取实体、关系以及实体属性信息。随后以实体、实体属性为节点,根据实体之间的关系及实体与实体属性的对应关系对节点进行边连接,得到知识图谱。

示例性地,在第一实体和第二实体所属领域为医学领域时,实体例如可以包括医学词条,例如疾病名称、药物名称、科室名称等,实体属性例如可以包括疾病的临床症状、药物所针对的症状等。关系例如可以包括疾病与治疗科室之间的归属关系、症状之间的伴随关系、疾病之间的并发关系等。

根据本申请的实施例,操作S250可以先确定知识图谱中指示目标关联信息中第一词和第二词表示的两个实体的两个节点。然后根据知识图谱中与该两个节点连接的节点,抽取得到关联节点。最后可以将关联节点指示的实体词拼接形成描述文本。

示例性地,在从知识图谱中抽取关联节点时,可以以指示第一词表示实体的节点为起点,根据该起点的连接边确定与起点有关联关系的节点,作为第一节点。然后以该第一节点为起点,根据该第一节点的连接边确定与第一节点有关联关系的节点,作为第二节点。以此类推,直至得到经由m个节点能与指示第一词表示实体的节点建立关联关系的第(m+1)节点。最终,将第一节点~第(m+1)节点作为关联节点。其中,m为自然数,该m的取值可以根据实际需求进行设定,本申请对此不做限定。

在操作S270,根据目标关联信息和描述文本,确定第二语义特征。

根据本申请的实施例,该操作S270可以将目标关联信息和描述文本作为与前文描述的第一语义特征提取模型类似的第二语义特征提取模型的输入,输出得到第二语义特征向量。其中,第一语义特征提取模型和第二语义特征提取模型的区别在于,在训练时,所采用的训练样本存在区别。

示例性地,第二语义特征提取模型例如可以为BERT、LSTM、词表示全局向量模型(Global Vectors for word representation,GloVe)等。

在操作S290,根据第一语义特征和第二语义特征,确定第一实体与所述第二实体之间具有目标关联关系的置信度。

根据本申请的实施例,该操作S290例如可以将第一语义特征和第二语义特征同时作为预测模型的输入,经由预测模型得到第一词和第二词指示的两个实体具有目标关联关系的置信度。

示例性地,预测模型例如可以为用于分类的分类器。经由分类器可以输出得到第一词和第二词针对预设数量个关联关系的置信度向量。该置信度向量包括多个值,每个值对应预设数量个关联关系中的一个关联关系,每个值的取值即为第一词和第二词指示的两个实体之间具有该一个关联关系的置信度。随后确定该置信度向量中对应目标关联关系的值,作为目标值。将该目标值的取值作为最终确定的第一实体与第二实体之间具有目标关联关系的置信度。

相较于相关技术中直接从文本中抽取目标关联关系的技术方案,本申请实施例的确定实体之间关联关系的方法,通过从文本库中抽取相似文本,并基于知识图谱得到描述文本,最终综合相似文本和描述文本来确定两个实体之间关系置信度,能够充分利用已构建的结构化信息和非结构化信息。从而可以有效提高确定的关系置信度的准确性,便于建立准确的电子化知识,利于提高信息召回的准确性。

可以理解的是,本申请对前述操作S230与操作S250的执行顺序不做限定。例如,还可以同时执行操作S230与操作S250,也可以在操作S250执行之前执行操作S230。

图3是根据本申请实施例的确定第一语义特征的原理示意图。

根据本申请的实施例,可以采用能够学习完整语义表示的基于飞桨开源的持续学习的语义理解框架(Enhanced Representation through Knowledge Integration,Ernie)来确定第一语义特征。

示例性地,在确定第一语义特征时,例如可以将目标关联信息进行拆分,将表示第一实体的第一词S和表示目标关联关系的第三词P经过模板转换成问题语句,将表示第二实体的第二词O采用预设词进行替换,以得到第二词被预设词遮蔽的目标关联信息。然后将由问题语句和预设词拼接形成的被遮蔽第二词的目标关联信息和前文描述的相似文段作为预训练的Ernie模型的输入,经由Ernie模型输出得到第一语义特征。其中,预设词例如可以为指示第二词O的类型的任意词,例如可以为“选项”、“option”或“下位词”等。其中,模板可以根据目标关联关系和实际需求进行设定,本申请对此不作限定。例如,第三词表示的目标关联关系为上下位关系,模板可以为“A的下位词为?”。在第一词为“生病”时,经由、模板转换成的问题语句可以为“生病的下位词为?”。

根据本申请的实施例,在以被遮蔽第二词的目标关联信息和相似文段作为第一语义特征提取模型的输入,得到第一语义特征时,还可以对Ernie模型的输出向量进行降维处理,将降维处理后的向量作为第一语义特征。以此可以提高第一语义特征的表达能力,便于提高根据该第一语义特征确定的置信度的准确性。

示例性地,如图3所示的实施例300,在得到第一语义特征时,可以先对目标关联信息310进行预处理,以采用预设词替换第二词,得到被遮蔽第二词的被遮蔽后信息320。然后,将该被遮蔽后信息320和获取的相似文段330作为第一语义向量模型340(Ernie模型)的输入。经由该第一语义向量模型340处理后,输出得到嵌入向量350。随后,再将嵌入向量350作为注意力神经网络模型360的输入,以对嵌入向量350进行降维处理,将注意力神经网络模型360输出的向量作为第一语义特征370。

示例性地,注意力神经网路模型360例如可以为多层协同注意力(c

根据本申请的实施例,Ernie模型例如可以直接采用已有的预训练模型。或者,在获取到已有的预训练模型后,可以先获取第一实体和第二实体所属领域的海量文本,并对该海量文本中的词或实体进行遮蔽(mask)来得到训练样本,最后采用该训练样本对已有的训练模型中的模型参数进行调整,得到能够用来提取特征的第一语义特征提取模型。

图4是根据本申请另一实施例的确定第一语义特征的原理示意图。

根据本申请的实施例,在确定第一语义特征时,还可以对根据目标关联信息从预设文段库中获取到的文段进行筛选,将与目标关联信息的相似度高的文段作为相似文段。通过此方式,可以避免相似度较低的文段为特征提取带来的较大噪音,从而可以提高提取得到的第一语义特征的准确性。

示例性地,如图4所示的实施例400,在获取到目标关联信息后,可以先对目标关联信息中的第一词411、第二词412和第三词413进行组合,得到检索语句。其中,例如可以通过将第一词411、第二词412和第三词413按随机顺序拼接得到的字符串作为检索语句。然后根据该检索语句420检索具有大量文段的预设文段库430。从预设文段库430中获取到包括检索语句420中全部或部分词的文段,作为针对目标关联信息的备选相似文段440。随后,确定备选相似文段440中每个备选相似文段与检索语句420之间的相似度,并确定与检索语句420的相似度满足第一预设条件的文段为针对目标关联信息的相似文段450。最终,通过将相似文段450和被遮蔽第二词的目标关联信息(即被遮蔽后信息460)作为第一语义特征提取模型470的输入,得到第一语义向量480。

示例性地,在确定每个备选相似文段与检索语句420之间的相似度时,例如可以采用TF-IDF工具统计得到备选相似文段和检索语句各自包括词库中各词的频率,以将备选相似文段和检索语句分别转换为词向量。最后将两个词向量之间的相似度作为备选相似文段和检索语句之间的相似度。该相似度例如可以采用以下任意一种参数形式来体现:余弦相似度、杰卡德相似系数、斯皮尔曼相关系数等。

示例性地,还可以采用基于二元独立模型(BIM)的BM25模型来计算每个备选相似文段与检索语句420之间的相似度。其中,BM25模型是信息索引领域用来计算查询语句与文档相似度得分的经典算法。

示例性地,满足第一预设条件的相似度例如可以为大于第一预设值的相似度,或者依据相似度自大到小排序,排在第一预定位置之前的相似度。其中,第一预设值和第一预定位置可以根据实际需求进行设定,本申请对此不做限定。例如,第一预设值可以为大于0.5的任意值,第一预定位置可以为第一位之后、且第五位之前的任意位置。

图5是根据本申请实施例的确定针对目标关联信息的描述文本的原理示意图。

根据本申请的实施例,针对目标关联信息的描述文本例如可以是通过对SPO进行转换得到的文本。该实施例可以根据目标关联信息从知识图谱中抽取多个SPO组,作为与目标关联信息表示的实体相关联的关联SPO。随后将关联SPO转换得到多个文本。最后从根据关联SPO转换得到的多个文本中抽取到与目标关联信息转换的文本相似度较高的文本,作为针对目标关联信息的描述文本。通过从多个文本中抽取相似度高的文本作为描述文本,并根据描述文本确定第二语义特征,可以提高确定的第二语义特征表示目标关联信息的精准度,便于提高确定的置信度的准确性。

根据本申请的实施例,如图5所示的实施例500,在确定针对目标关联信息的描述文本时,可以先从预设知识图谱520中获取与第一词511具有关联关系的第一关联词,并获取与第二词512具有关联关系的第二关联词。随后根据第一词511和第一关联词之间的关联关系以及第二词512与第二关联词之间的关联关系,确定多个备选关联信息540。

示例性地,第一关联词可以包括预设知识图谱520中与指示第一词511的节点通过边连接的第一节点指示的词。该第一关联词例如还可以包括与第一节点通过边连接的第二节点指示的词等。该第一关联词包括通过前文描述的根据m确定的关联节点指示的词。在得到该第一关联词后,可以根据指示第一关联词的节点和指示第一词的节点中多个节点彼此之间连接的边,构建得到多个SPO。多个SPO中的每个SPO作为一个第一关联信息531,最终得到多个第一关联信息。可以理解的是,可以采用与第一关联词的获取方法类似的方法得到第二关联词,并得到第二关联信息532。最终,将第一关联信息531和第二关联信息532汇总,得到多个备选关联信息540。

根据本申请的实施例,在得到备选关联信息后,可以根据预设文本模板,确定每个备选关联信息的描述文本,以及目标关联信息的描述文本。最后确定多个备选关联信息各自的描述文本中,与目标关联信息的描述文本之间的相似度满足第二预设条件的描述文本,作为针对目标关联信息的描述文本。

示例性地,如图5所示,可以将目标关联信息510中的S、P、O代入文本模板550,得到目标描述文本560。将每个备选关联信息540中的S、P、O代入文本模板550,得到备选描述文本570。随后计算每个备选描述文本570与目标描述文本560之间的相似度,得到针对每个备选描述文本570的相似度。最后,将满足第二预设条件的相似度所针对的备选描述文本作为最终确定的针对目标关联信息的描述文本580。

示例性地,满足第二预设条件的相似度可以为大于第二预设值的相似度,或者依据相似度自大到小排序,排在第二预定位置之前的相似度。其中,第二预设值和第二预定位置可以根据实际需求进行设定,本申请对此不做限定。例如,第二预设值可以为大于0.6的任意值,第二预定位置可以为第二位之后、且第八位之前的任意位置。可以理解的是,根据实际需求,该第二预设条件与前文描述的第一预设条件例如可以为相同的条件。

示例性地,预设文本模板可以根据实际需求进行设定,例如,预设文本模板可以为“A与B具有C关联”。在目标关联信息为“生病-上下位关系-感冒”,通过将目标关联信息代入预设文本模板,可以得到描述文本“生病与感冒具有上下位关系”。可以理解的是,上述预设文本模板仅作为示例以利于理解本申请,本申请对此不做限定。

根据本申请的实施例,在得到针对目标关联信息的描述文本后,可以对目标关联信息进行如前文描述的采用预设词对第二词进行替换的操作,得到被遮蔽第二词的目标关联信息。最后,将被遮蔽第二词的目标关联信息和针对目标关联信息的描述文本作为第二语义特征提取模型的输入,经由第二语义特征模型处理后输出得到第二语义特征。可以理解的是,可以采用与得到第一语义特征的方法类似的方法来得到第二语义特征,两种方法的区别在于得到该第二语义特征所依据的文本为从知识图谱中抽取到的结构化知识的描述文本。

根据本申请的实施例,在得到第一语义特征和第二语义特征后,可以将第一语义特征和第二语义特征同时输入预测模型,经由预测模型处理后输出概率向量,该概率向量包括被遮蔽的第二词为预设实体词库中各实体词的概率值。最后,可以确定概率向量中指示被遮蔽的第二词为第二实体的实体词的概率值,将该概率值作为第一实体与第二实体之间具有目标关联关系的置信度。

示例性地,预设实体词库可以包括从描述第一实体和第二实体所属领域的专业知识中抽取得到的实体词,该实体词库包括第二词。对于不同领域,可以预先构建有不同的实体词库。上述确定的概率值为概率向量中针对预设实体词库中描述第二实体的实体词的概率值。

示例性地,预测模型例如可以为分类模型,该分类模型例如可以包括全连接层和输出层。全连接层用于对第一语义特征和第二语义特征进行融合,输出层用于输出前文描述的概率向量。示例性地,分类模型还可以包括softmax激活层,用于将输出的概率向量进行归一化。

图6是根据本申请实施例的确定实体之间关联关系的原理示意图。

根据本申请的实施例,如图6所示,在该实施例600中,确定实体之间关联关系的整体流程可以包括如下描述的流程。

在获取到目标关联信息后,将第二词作为选项612,将第一词和第三词根据模板转换为问题613,将第一词、第二词和第三词拼接形成检索语句,并检索得到针对目标关联信息的相似文段611。随后将文段611作为证据evidence,将该evidence、选项612和问题613拼接后输入第一语义特征提取模型620,经由第一语义特征提取模型620处理后输出得到能够表达文段、选项和问题的嵌入向量,该嵌入向量可以理解为是由文段表达向量631、选项表达向量632和问题表达向量633拼接得到的向量。随后,将该第一语义特征提取模型620输出的嵌入向量输入注意力神经网络模型640,输出得到第一语义特征。

同时,可以从知识图谱650中获取针对第一词的关联词及针对第二词的关联词,从而得到多个S与O的组合,该S和O为知识图谱中具有连接边的两个节点分别指示的两个词。根据该S和O及两个节点之间连接的边所指示的关联关系,可以得到多个SPO,从而拼接形成关联字符串662。随后,采用预设文本模板将关联字符串662转换为描述文本。接下来将通过遮蔽第二词得到的被遮蔽第二词的目标关联信息作为目标字符串661和描述文本输入第二语义特征提取模型670,经由第二语义特征提取模型670处理后输出第二语义特征。

最后,将第一语义特征和第二语义特征同时输入预测模型680,根据该预测模型680的输出可以得到第一实体与第二实体之间具有目标关联关系的置信度690。

根据该实施例的确定实体之间关联关系的方法,可以充分利用现有的结构化知识和非结构化知识来进行关联关系置信度的确定,并因此可以用于进行实体间关联关系的召回。相较于现有技术中仅依据文本召回关联关系,可以提高召回的关联关系的准确性。通过将该方法应用于医学领域中实体之间上下位关系的预测中,可以有效降低疾病上下位关系的构建成本,利于医学领域中知识的智能电子化管理。

根据本申请的实施例,在得到第一实体和第二实体之间具有目标关联关系的置信度后,若该置信度较高,还可以根据该目标关联信息对知识图谱进行补充,以利于后续置信度预测中能够获取到更全面和更丰富的结构化知识,并因此提高后续置信度预测的准确性。

根据本申请的实施例,该实施例的确定实体之间关联关系的操作还可以先确定第一实体与第二实体之间具有目标关联关系的置信度是否大于预设置信度。若大于预设置信度,则根据目标关联信息补充预设知识图谱。

示例性地,在补充预设知识图谱时,可以先确定预设知识图谱中是否具有指示第一词的节点和指示第二词的节点。若不包括指示第一词的节点,则在知识图谱中添加一个节点,用于指示第一词。类似地,可以在不包括指示第二词的节点时,添加指示第二词的节点。在确定预设知识图谱中具有指示第一词的节点和指示第二词的节点后,再确定该指示第一词的节点与指示第二词的节点之间是否具有连接边,若没有,则添加该两个节点之间的边,完成对预设知识图谱的补充。

示例性地,预设置信度例如可以根据在对各模型进行训练后,根据采用测试样本得到的预测置信度来确定。例如,可以根据置信度与测试样本的标签之间的关系来设定,以使得该预设置信度的取值能够使得针对预设比例的测试样本的置信度大于该预设置信度。其中,预设比例可以为80%、85%、90%等较大的取值,预设置信度例如可以为0.6、0.8等大于0.5的值。可以理解的是,上述预设比例和预设置信度的取值及确定方法仅作为示例以利于理解本申请,本申请对此不做限定。

根据本申请的实施例,在确定第一实体与第二实体之间具有所述目标关联关系的置信度大于预设置信度后,例如还可以通过专业人士进行置信度准确性评估。在评估结果为置信度可信时,再根据目标关联关系补充预设知识图谱。

基于前文描述的确定实体之间关联关系的方法,本申请还提供了一种确定实体之间关联关系的装置。以下将结合图7对本申请提供的装置进行详细描述。

图7是根据本申请实施例的确定实体之间关联关系的装置结构框图。

如图7所示,该实施例的确定实体之间关联关系的装置700可以包括信息获取模块710、第一特征确定模块730、文本确定模块750、第二特征确定模块770和置信度确定模块790。

信息获取模块710用于获取目标关联信息,该目标关联信息包括表示第一实体的第一词、表示第二实体的第二词和表示目标关联关系的第三词。在一实施例中,信息获取模块710例如可以用于执行前文描述的操作S210,在此不再赘述。

第一特征确定模块730用于根据目标关联信息和预设文段库中针对目标关联信息的相似文段,确定第一语义特征。在一实施例中,第一特征确定模块730例如可以用于执行前文描述的操作S230,在此不再赘述。

文本确定模块750用于根据目标关联信息和预设知识图谱,确定针对目标关联信息的描述文本。在一实施例中,文本确定模块750例如可以用于执行前文描述的操作S250,在此不再赘述。

第二特征确定模块770用于根据目标关联信息和描述文本,确定第二语义特征。在一实施例中,第二特征确定模块770例如可以用于执行前文描述的操作S270,在此不再赘述。

置信度确定模块790用于根据第一语义特征和第二语义特征,确定第一实体与第二实体之间具有目标关联关系的置信度。在一实施例中,置信度确定模块790例如可以用于执行前文描述的操作S290,在此不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图8所示,是用来实现本申请实施例的确定实体之间关联关系的方法的电子设备框图。

电子设备旨在表示各种形式的数字计算机,诸如,嗪上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示,该电子设备800包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的确定实体之间关联关系的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的确定实体之间关联关系的方法。

存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的确定实体之间关联关系的方法对应的程序指令/模块(例如,附图7所示的信息获取模块710、第一特征确定模块730、文本确定模块750、第二特征确定模块770和置信度确定模块790)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的确定实体之间关联关系的方法。

存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实现确定实体之间关联关系的方法的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至实现确定实体之间关联关系的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现确定实体之间关联关系的方法的电子设备800还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息,以及产生与实现确定实体之间关联关系的方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号