首页> 中国专利> 军事实体链接方法、装置、计算机设备和存储介质

军事实体链接方法、装置、计算机设备和存储介质

摘要

本发明涉及实体消歧技术领域,提供了一种军事实体链接方法、装置、计算机设备和存储介质,所述方法包括:获取待链接军事实体以及与所述待链接军事实体相似的候选实体;基于所述待链接军事实体和所述候选实体的实体数值属性、实体类型、实体名称以及实体上下文信息,分别得到实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征;融合所述实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征进行相似度判断,确定所述待链接军事实体和所述候选实体的相似度;根据所述相似度从所述候选实体中确定目标链接实体。采用本方法能够提高实体消歧的精准度。

著录项

  • 公开/公告号CN114896980A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 湖南四方天箭信息科技有限公司;

    申请/专利号CN202210824330.7

  • 申请日2022-07-14

  • 分类号G06F40/295(2020.01);G06F16/332(2019.01);G06F16/36(2019.01);G06F40/30(2020.01);

  • 代理机构

  • 代理人

  • 地址 410000 湖南省长沙市高新开发区岳麓西大道588号芯城科技园8栋1301房

  • 入库时间 2023-06-19 16:23:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-28

    授权

    发明专利权授予

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06F40/295 专利申请号:2022108243307 申请日:20220714

    实质审查的生效

说明书

技术领域

本发明属于实体消歧技术领域,尤其涉及一种军事实体链接方法、装置、计算机设备和存储介质。

背景技术

实体消歧也称为语义消歧,用于解决同名实体存在的一词多义的歧义问题。目前,实体消歧研究中常用的方法是基于实体链接的实体消歧。现有实体链接大多是通过与知识库中已有实体的字面相似度或浅层语义相似度来获取待链接实体的候选实体,之后再对两个实体的关系与属性同样以字面相似度或者浅层语义相似度来判断两个实体之间的相似度。

然而,由于传统的方法需要基于实体关系与属性进行实体间的相似度判断,因此比较依赖实体关系属性抽取的结果,当实体关系属性结果出现错误时,其也会进一步继承实体关系属性抽取的错误,从而影响相似度的判断降低实体消歧的精准性。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高实体消歧精准性的军事实体链接方法、装置、计算机设备和存储介质。

本发明提供一种军事实体链接方法,包括:

获取待链接军事实体以及与所述待链接军事实体相似的候选实体;

基于所述待链接军事实体和所述候选实体的实体数值属性、实体类型、实体名称以及实体上下文信息,分别得到实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征;

融合所述实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征进行相似度判断,确定所述待链接军事实体和所述候选实体的相似度;

根据所述相似度从所述候选实体中确定目标链接实体。

在其中一个实施例中,所述获取待链接军事实体以及与所述待链接军事实体相似的候选实体,包括:

提取待链接军事实体以及所述待链接军事实体别名的字母数字组合特征;

利用所述待链接军事实体的实体名称、所述别名以及所述字母数字组合特征分别在知识图谱内进行模糊搜索,获取与所述待链接军事实体相似的各个候选实体。

在其中一个实施例中,基于所述待链接军事实体和所述候选实体的实体数值属性得到实体数值属性特征,包括:

获取所述待链接军事实体和所述候选实体的数值属性;

对所述数值属性进行单位统一换算和属性单位对齐后,按照预定义属性类型顺序对所述数值属性进行拼接和缺失填补,得到实体数值属性特征。

在其中一个实施例中,基于所述待链接军事实体和所述候选实体的实体类型和实体名称得到实体类型特征和实体名称特征,包括:

分别对所述待链接军事实体和所述候选实体的实体类型进行one-hot编码,得到所述待链接军事实体和所述候选实体对应的实体类型特征;

将所述待链接军事实体和所述候选实体的实体名称作为单独的句子输入至多语言预训练模型,得到所述多语言预训练模型的输出;

将所述多语言预训练模型的输出进行最大池化处理,得到实体名称特征。

在其中一个实施例中,基于所述待链接军事实体和所述候选实体的上下文信息,得到实体上下文特征,包括:

获取所述待链接军事实体和所述候选实体的实体属性关系抽取结果的来源语句;

按照预定义属性关系顺序对属于同一实体的所述来源语句进行拼接,得到所述待链接军事实体和所述候选实体的实体上下文信息;

利用多语言预训练模型处理所述实体上下文信息,将所述多语言预训练模型的输出与对应的实体名称特征进行注意力机制融合,得到实体上下文特征。

在其中一个实施例中,所述融合所述实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征进行相似度判断,确定所述待链接军事实体和所述候选实体的相似度,包括:

将所述待链接军事实体和所述候选实体的同一实体特征构建成对,得到实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征对;

利用第一多层感知机对所述实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征分别进行融合后再统一输入至第二多层感知机,得到所述待链接军事实体和所述候选实体的相似度。

在其中一个实施例中,所述根据所述相似度从所述候选实体中确定目标链接实体,包括:

根据所述相似度排序得到最佳候选实体,将所述最佳候选实体的相似度与特定阈值比对;

在所述最佳候选实体的相似度小于所述特定阈值时,确定所述待链接军事实体为新实体;

在所述最佳候选实体的相似度大于等于所述特定阈值时,确定所述最佳候选实体为所述待链接军事实体的目标链接实体。

一种军事实体链接装置,包括:

候选实体生成模块,用于获取待链接军事实体以及与所述待链接军事实体相似的候选实体;

实体表征模块,用于基于所述待链接军事实体和所述候选实体的实体数值属性、实体类型、实体名称以及实体上下文信息,分别得到实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征;

实体相似度评估模块,用于融合所述实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征进行相似度判断,确定所述待链接军事实体和所述候选实体的相似度;

实体确定模块,用于根据所述相似度从所述候选实体中确定目标链接实体。

本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的军事实体链接方法的步骤。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的军事实体链接方法的步骤。

上述军事实体链接方法、装置、计算机设备和存储介质,获取到待链接军事实体以及相似的候选实体之后,通过两个实体的实体数值属性、实体类型、实体名称以及实体上下文信息分别得到相应的特征,包括实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征,进而融合该些特征确定待链接军事实体和候选实体的相似度,根据相似度确定目标链接实体完成对待链接军事实体的消歧。该方法通过将实体本身的类型特征、名称特征、上下文特征以及军事实体特有的数值属性特征等结合确定实体间的相似度来完成实体链接,无需依赖关系属性抽取结果,能够避免继承实体关系属性抽取结果错误所带来的影响。同时,通过融合多维度且针对军事实体的实体特征的方式相比简单计算实体关系属性字面相似度或浅层语义相似度的方式来说更加有效准确,从而提高了军事实体相似度判断的准确性,确保军事实体链接消歧的精准度。

附图说明

图1为一个实施例中军事实体连接方法的应用环境图。

图2为一个实施例中军事实体链接方法的流程示意图。

图3为一个实施例中军事实体连接装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本申请提供的军事实体链接方法,可以应用于如图1所示的应用环境中,该应用环境涉及终端102和服务器104。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

当终端102接收到实体链接指令时,可以由终端102单独实现上述军事实体链接方法。也可以由终端102将实体链接指令发送给通信的服务器104,由服务器104实现上述军事实体链接方法。

以服务器为例,具体的,服务器104获取待链接军事实体以及与待链接军事实体相似的候选实体;服务器104基于待链接军事实体和候选实体的实体数值属性、实体类型、实体名称以及实体上下文信息,分别得到实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征;服务器104融合实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征进行相似度判断,确定待链接军事实体和候选实体的相似度;服务器104根据相似度从候选实体中确定目标链接实体。

在一个实施例中,如图2所示,提供一种军事实体链接方法,以该方法应用于服务器为例进行说明,包括以下步骤:

步骤S201,获取待链接军事实体以及与待链接军事实体相似的候选实体。

其中,待链接军事实体是指需要通过链接进行实体消歧的军事实体,候选实体是筛选出来的与待链接军事实体相似的军事实体。

具体的,在服务器接收到实体链接指令之后,首先获得该实体链接指令对应的待链接军事实体。然后,通过匹配等方式筛选出与待链接军事实体相似的候选实体,所有的候选实体可以组成候选实体集。

步骤S202,基于待链接军事实体和候选实体的实体数值属性、实体类型、实体名称以及实体上下文信息,分别得到实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征。

其中,实体类型、实体名称是指实体的类型和名称,实体数值属性则是军事实体通常都具有的重要数值属性,例如排水量、服役日期、载弹量等,这些数值作为军事实体固有属性同样可以作为有效的消歧信号。实体上下文信息则是从实体属性关系抽取结果对应来源语句中获取到的信息。

具体的,服务器得到待链接军事实体以及各个候选实体之后,分别获取到每个实体的实体类型、实体名称、实体数值属性以及实体上下文信息。然后,分别对该些实体信息进行处理,从实体类型中获得实体类型特征、从实体名称中获得实体名称特征、从实体数值属性中获得实体数值属性特征以及从实体上下文信息中获得实体上下文特征。

步骤S203,融合实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征进行相似度判断,确定待链接军事实体和候选实体的相似度。

具体的,服务器得到待链接军事实体以及各个候选实体的实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征之后,融合该些特征来判断待链接军事实体和各个候选实体之间的相似度。实体之间相似度的判断可以采用现有任意一种方法,比如采用神经网络模型来判断相似度。即,预先进行模型训练得到能够判断实体相似度的神经网络模型,进而当进行相似度判断时,将待链接军事实体以及候选实体的该些特征输入到该神经网络模型。

步骤S204,根据相似度从候选实体中确定目标链接实体。

其中,目标链接实体是确定与待链接军事实体进行链接的实体,其基于相似度从候选实体中确定。

具体的,基于各个候选实体与待链接军事实体的相似度进行排序,基于相似度排序确定最佳候选实体作为目标链接实体。比如,选择相似度得分最高的候选实体为目标链接实体。

上述军事实体链接方法,获取到待链接军事实体以及相似的候选实体之后,通过两个实体的实体数值属性、实体类型、实体名称以及实体上下文信息分别得到相应的特征,包括实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征,进而融合该些特征确定待链接军事实体和候选实体的相似度,根据相似度确定目标链接实体完成对待链接军事实体的消歧。该方法通过将实体本身的类型特征、名称特征、上下文特征以及军事实体特有的数值属性特征等结合确定实体间的相似度来完成实体链接,无需依赖关系属性抽取结果,能够避免继承实体关系属性抽取结果错误所带来的影响。同时,通过融合多维度且针对军事实体的实体特征的方式相比简单计算实体关系属性字面相似度或浅层语义相似度的方式来说更加有效准确,从而提高了军事实体相似度判断的准确性,确保军事实体链接消歧的精准度。

在一个实施例中,步骤S201包括:提取待链接军事实体以及待链接军事实体别名的字母数字组合特征;利用待链接军事实体的实体名称、别名以及字母数字组合特征分别在知识图谱内进行模糊搜索,获取与待链接军事实体相似的各个候选实体。

其中,别名是指与待链接军事实体名称同义的名称,字母数字组合特征即字母-数字组合的名称特征。本实施例中的知识图谱中内包含各个军事实体。

具体的,由于军事实体通常都含有较为明显的消歧信号,例如飞行器实体F-16战斗机,其对应英文表述是F-16 Fighting Falcon,通常都具有相同的字母数字组合F-16,也就是说军事实体的该名称特征即使是跨语言的场景下也具有稳定性。因此,本实施例基于该字母数字组合特征来匹配待链接军事实体的候选实体,从待链接军事实体中提取该字母数字数字特征之后,本实施例优选借助Elasticsearch等工具对知识图谱内实体名进行模糊搜索来得到与待链接军事实体相似的各个候选实体。同时,可以再利用待链接军事实体的实体名称和对应别名在知识图谱内模糊搜索实体,也可以再相应获取待链接军事实体对应别名的字母数字特征模糊匹配候选实体,从而确保有别名的实体也能够得到更加准确候选实体集而提高实体消歧准确性。

在一个实施例中,基于待链接军事实体和候选实体的实体数值属性得到实体数值属性特征,包括:获取待链接军事实体和候选实体的数值属性;对数值属性进行单位统一换算和属性单位对齐后,按照预定义属性类型顺序对数值属性进行拼接和缺失填补,得到实体数值属性特征。

具体的,军事实体属性的数值属性结果通常分为数值和单位两个部分,单位包括体积、面积、长度、重量、日期等,其即使使用不同语言、单位类型表达,de形式仍然相对固定为“数值-单位”,比如排水量为10kg、10000g。但是基于表述的差异,文本中对于不同实体的数值属性具体所用单位名称和单位可能不一致。因此在获取到实体的数值属性之后,进一步对其进行单位统一换算和属性单位对齐。单位统一换算是将单位换成统一计量单位,比如重量无论是kg还是g,均统一换算为kg。属性单位对齐则是将实际用于表述为同一属性名称的各个词语统一更改为同一个表述,比如均用于表示排水量的名称统一表述为“排水量”。之后,按照预定义属性类型顺序对统一后的数值属性进行拼接和缺失填补,得到实体数值属性特征。比如,按照预定义顺序“重量-面积-长度-体积-日期”对实体的各个属性数值进行排序,如果某个数值属性缺失具体的数值,可以用预先定义的特定数值填补用以告知服务器该数值缺失。其中,预定义属性类型顺序和特定数值均可以根据实际情况进行设定,在此不做限定。

在一个实施例中,基于待链接军事实体和候选实体的实体类型和实体名称得到实体类型特征和实体名称特征,包括:分别对待链接军事实体和候选实体的实体类型进行one-hot编码,得到待链接军事实体和所述候选实体对应的实体类型特征;将待链接军事实体和候选实体的实体名称作为单独的句子输入至多语言预训练模型,得到多语言预训练模型的输出;将多语言预训练模型的输出进行最大池化处理,得到实体名称特征。

具体的,军事实体的类型对于军事实体链接具有重要的约束意义,本实施例实体类型特征的获取通过对实体类型进行one-hot编码获得,one-hot编码的结果作为实体类型特征。实体名称特征的获取通过将实体名称作为一个单独句子输入至神经网络模型得到,本实施例优选多语言预训练模型(XLM-R)提取实体名称特征,采用该模型能够实现跨语言军事实体链接,确保各种语言表述的军事实体都能提取到名称特征。即,首先将实体名称作为一个单独句子输入到XLM-R模型中得到XLM-R模型的输出。然后,增加一个最大池化层,对XLM-R模型的输出进行最大池化处理形成一个单一的表示作为实体名称特征。

在一个实施例中,基于待链接军事实体和候选实体的上下文信息,得到实体上下文特征,包括:获取待链接军事实体和候选实体的实体属性关系抽取结果的来源语句;按照预定义属性关系顺序对属于同一实体的来源语句进行拼接,得到待链接军事实体和候选实体的实体上下文信息;利用多语言预训练模型处理实体上下文信息,将多语言预训练模型的输出与对应的实体名称特征进行注意力机制融合,得到实体上下文特征。

具体的,实体上下文特征首先获取到实体对应各实体属性关系抽取结果的来源语句,来源语句即实体属性和关系的所在语句,比如从文本中获取到重量、体积、长度、日期等属性的所在语句。然后,按照预定义属性关系顺序将各个实体属性的来源语句进行拼接,所得到的拼接文本作为实体的实体上下文本信息,对于缺失属性关系对应的语句用预定义的特殊字符代替便于告知服务器该文本语句缺失,不同语句的拼接处也可以用特殊符号连接用于表示连接处。最后,同样将实体上下文信息输入到多语言预训练模型XLM-R中得到模型的输出,再将模型的输出与对应得到的实体名称特征进行注意力机制融合,从而增强上下文信息与实体之间的关联性,得到实体上下文特征。比如,对于待链接军事实体的实体上下文本信息的获取,需要与待链接军事实体的实体名称特征进行注意力机制融合得到。

本实施例基于预定义顺序拼接语句能够确保候选实体和待链接军事实体的属性和关系描述信息在句子级别是对齐的,能够提高模型学习的准确性。同时,基于多语言预训练模型获取实体的特征,相比传统面对跨语言军事实体采用翻译的方式来说,能够避免翻译导致的错误传递,从而提高多语言军事实体链接的准确性。

在一个实施例中,步骤S203,包括:将待链接军事实体和候选实体的同一实体特征构建成对,得到实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征对;利用第一多层感知机对实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征分别进行融合后再统一输入至第二多层感知机,得到待链接军事实体和候选实体的相似度。

具体的,在确定待链接军事实体与候选实体的相似度时,本实施例首先将待链接军事实体与候选实体中属于同一个实体特征的特征构建成对。即,待链接军事实体的实体数值属性特征与候选实体的实体数值属性特征构建成实体数值属性特征对。实体类型特征、实体名称特征以及实体上下文特征均采用与实体数值属性特征相同的方式构建成特征对,此处不再赘述,从而同样能够得到实体类型特征对、实体名称特征对以及实体上下文特征对。然后,服务器先使用第一多层感知机(MLPs)对各个特征对进行融合,再将特征融合之后的各个特征输入到第二多层感知机(MLPs)处理得到待链接军事实体和候选实体的相似度。比如,对于待链接军事实体与候选实体A,先使用4个第一多层感知机(MLPs)分别对这两个实体的实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征分别进行融合,再将4个第一多层感知机(MLPs)输出的融合特征同时输入到第二多层感知机(MLPs)中,由第二多层感知机(MLPs)输出待链接军事实体与候选实体A的相似度。相似度根据实际需求可以是百分比数值也可以是具体分值,比如相似度80%或者80分。

本实施例所用的第一多层感知机和第二多层感知机优选Triplet Network网络结构训练得到,优选使用hinge loss作为训练损失函数,使用ReLu作为中间激活函数,使用Tanh作为最终激活函数,以及模型训练时的输入数据为三元组【锚定实体、正面实体、负面实体】。其中,锚定实体可以理解为是标准实体,正面实体是与锚定实体相似的实体,负面实体是与锚定实体不相似的实体,正面实体和负面实体可以理解为是以标准样本为基准的正样本和负样本,三元组形式的训练数据使得模型能够将属于同一现实对象的实体组合距离拉近,而不属于同一现实对象的实体组合距离拉远。也就是说,同时基于锚定实体、正面实体、负面实体的实体数值属性、实体类型、实体名称、实体上下文等信息对Triplet Network网络结构训练进行训练,得到本实施例的第一多层感知机和第二多层感知机。

本实施例中,通过对上游实体各个信息特征进行融合评估相似度,从而能够捕获实体在不同层面信息的相似度,提高相似度评估的准确性。同时,通过构建三元组的训练数据使得模型能够进一步区分相同实体与不同实体,提高相似度评估的精准性。

在一个实施例中,步骤S204,包括:根据相似度排序得到最佳候选实体,将最佳候选实体的相似度与特定阈值比对;在最佳候选实体的相似度小于特定阈值时,确定待链接军事实体为新实体;在最佳候选实体的相似度大于等于特定阈值时,确定最佳候选实体为待链接军事实体的目标链接实体。

具体的,服务器基于相似度排序选择目标链接实体时,先根据相似度排序得到最佳候选实体。然后,将确定的最佳候选实体的相似度与预先设定的特定阈值进行比较,如果最佳候选实体的相似度小于特定阈值,则表示该实体仅仅只是候选实体集中与待链接军事实体最为相似的实体,但是其相似程度不足与成为待链接军事实体的目标链接实体,意味着知识库中不存在与待链接军事实体同义的实体,该待链接军事实体为新实体。而当最佳候选实体的相似度大于等于特定阈值时,则表示该实体为待链接候选实体的目标链接实体。其中,特定阈值可以根据实际情况情况进行设定,在此不做限定。本实施例中,基于特定阈值进一步判断排序所得的最佳候选实体是否能够称为目标链接实体,确保目标链接实体选择的准确性,从而提高实体消歧的精准度。

应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图3所示,提供一种军事实体链接装置,包括:

候选实体生成模块301,用于获取待链接军事实体以及与待链接军事实体相似的候选实体。

实体表征模块302,用于基于待链接军事实体和候选实体的实体数值属性、实体类型、实体名称以及实体上下文信息,分别得到实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征。

实体相似度评估模块303,用于融合实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征进行相似度判断,确定待链接军事实体和候选实体的相似度。

实体确定模块304,用于根据相似度从候选实体中确定目标链接实体。

在一个实施例中,候选实体生成模块301还用于提取待链接军事实体以及待链接军事实体别名的字母数字组合特征;利用待链接军事的实体名称、别名以及字母数字组合特征分别在知识图谱内进行模糊搜索,获取与待链接军事实体相似的各个候选实体。

在一个实施例中,实体表征模块302还用于获取待链接军事实体和候选实体的数值属性;对数值属性进行单位统一换算和属性单位对齐后,按照预定义属性类型顺序对数值属性进行拼接和缺失填补,得到实体数值属性特征。

在一个实施例中,实体表征模块302还用于分别对待链接军事实体和候选实体的实体类型进行one-hot编码,得到待链接军事实体和所述候选实体对应的实体类型特征;将待链接军事实体和候选实体的实体名称作为单独的句子输入至多语言预训练模型,得到多语言预训练模型的输出;将多语言预训练模型的输出进行最大池化处理,得到实体名称特征。

在一个实施例中,实体表征模块302还用于获取待链接军事实体和候选实体的实体属性关系抽取结果的来源语句;按照预定义属性关系顺序对属于同一实体的来源语句进行拼接,得到待链接军事实体和候选实体的实体上下文信息;利用多语言预训练模型处理实体上下文信息,将多语言预训练模型的输出与对应的实体名称特征进行注意力机制融合,得到实体上下文特征。

在一个实施例中,实体相似度评估模块303还用于将待链接军事实体和候选实体的同一实体特征构建成对,得到实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征对;利用第一多层感知机对实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征分别进行融合后再统一输入至第二多层感知机,得到待链接军事实体和候选实体的相似度。

在一个实施例中,实体确定模块304还用于根据相似度排序得到最佳候选实体,将最佳候选实体的相似度与特定阈值比对;在最佳候选实体的相似度小于特定阈值时,确定待链接军事实体为新实体;在最佳候选实体的相似度大于等于特定阈值时,确定最佳候选实体为待链接军事实体的目标链接实。

关于军事实体链接装置的具体限定可以参见上文中对于军事实体链接方法的限定,在此不再赘述。上述军事实体链接装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个军事实体链接方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

在一个实施例中,提供一种计算机设备,该计算机设备可以是服务器,包括处理器,存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种军事实体链接方法。示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本领域技术人员可以理解,本实施例中所示出的计算机设备结构,仅仅是与本发明方案相关的部分结构,并不构成对本发明所应用于其上的计算机设备的限定,具体的计算机设备可以包括更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取待链接军事实体以及与待链接军事实体相似的候选实体;基于待链接军事实体和候选实体的实体数值属性、实体类型、实体名称以及实体上下文信息,分别得到实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征;融合实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征进行相似度判断,确定待链接军事实体和候选实体的相似度;根据相似度从候选实体中确定目标链接实体。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取待链接军事实体以及待链接军事实体别名的字母数字组合特征;利用待链接军事实体的实体名称、别名以及字母数字组合特征分别在知识图谱内进行模糊搜索,获取与待链接军事实体相似的各个候选实体。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待链接军事实体和候选实体的数值属性;对数值属性进行单位统一换算和属性单位对齐后,按照预定义属性类型顺序对数值属性进行拼接和缺失填补,得到实体数值属性特征。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对待链接军事实体和候选实体的实体类型进行one-hot编码,得到待链接军事实体和所述候选实体对应的实体类型特征;将待链接军事实体和候选实体的实体名称作为单独的句子输入至多语言预训练模型,得到多语言预训练模型的输出;将多语言预训练模型的输出进行最大池化处理,得到实体名称特征。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待链接军事实体和候选实体的实体属性关系抽取结果的来源语句;按照预定义属性关系顺序对属于同一实体的来源语句进行拼接,得到待链接军事实体和候选实体的实体上下文信息;利用多语言预训练模型处理实体上下文信息,将多语言预训练模型的输出与对应的实体名称特征进行注意力机制融合,得到实体上下文特征。

在一个实施例中,处理器执行计算机程序时还实现以下步骤: 将待链接军事实体和候选实体的同一实体特征构建成对,得到实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征对;利用第一多层感知机对实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征分别进行融合后再统一输入至第二多层感知机,得到待链接军事实体和候选实体的相似度。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据相似度排序得到最佳候选实体,将最佳候选实体的相似度与特定阈值比对;在最佳候选实体的相似度小于特定阈值时,确定待链接军事实体为新实体;在最佳候选实体的相似度大于等于特定阈值时,确定最佳候选实体为待链接军事实体的目标链接实体。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待链接军事实体以及与待链接军事实体相似的候选实体;基于待链接军事实体和候选实体的实体数值属性、实体类型、实体名称以及实体上下文信息,分别得到实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征;融合实体数值属性特征、实体类型特征、实体名称特征以及实体上下文特征进行相似度判断,确定待链接军事实体和候选实体的相似度;根据相似度从候选实体中确定目标链接实体。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤: 提取待链接军事实体以及待链接军事实体别名的字母数字组合特征;利用待链接军事实体的实体名称、别名以及字母数字组合特征分别在知识图谱内进行模糊搜索,获取与待链接军事实体相似的各个候选实体。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤: 获取待链接军事实体和候选实体的数值属性;对数值属性进行单位统一换算和属性单位对齐后,按照预定义属性类型顺序对数值属性进行拼接和缺失填补,得到实体数值属性特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤: 分别对待链接军事实体和候选实体的实体类型进行one-hot编码,得到待链接军事实体和所述候选实体对应的实体类型特征;将待链接军事实体和候选实体的实体名称作为单独的句子输入至多语言预训练模型,得到多语言预训练模型的输出;将多语言预训练模型的输出进行最大池化处理,得到实体名称特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取待链接军事实体和候选实体的实体属性关系抽取结果的来源语句;按照预定义属性关系顺序对属于同一实体的来源语句进行拼接,得到待链接军事实体和候选实体的实体上下文信息;利用多语言预训练模型处理实体上下文信息,将多语言预训练模型的输出与对应的实体名称特征进行注意力机制融合,得到实体上下文特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤: 将待链接军事实体和候选实体的同一实体特征构建成对,得到实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征对;利用第一多层感知机对实体数值属性特征对、实体类型特征对、实体名称特征对以及实体上下文特征分别进行融合后再统一输入至第二多层感知机,得到待链接军事实体和候选实体的相似度。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤: 根据相似度排序得到最佳候选实体,将最佳候选实体的相似度与特定阈值比对;在最佳候选实体的相似度小于特定阈值时,确定待链接军事实体为新实体;在最佳候选实体的相似度大于等于特定阈值时,确定最佳候选实体为待链接军事实体的目标链接实体。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号