首页> 中国专利> 知识图谱构建方法、知识图谱构建系统和计算设备

知识图谱构建方法、知识图谱构建系统和计算设备

摘要

本发明公开了一种知识图谱构建方法、知识图谱构建系统和计算设备,该方法包括:获取作为原始数据的文本,对所述文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果;以及对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。本发明将知识图谱的概念从传统的静态知识三元组变为包含静态知识五元组以及动态事件知识在内的复合知识,使用篇章级要素抽取与要素关联,可以大大提升五元组的提取效率与召回率,使得知识结构化属性更强。

著录项

  • 公开/公告号CN114817553A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 科大讯飞股份有限公司;

    申请/专利号CN202111396510.1

  • 申请日2021-11-23

  • 分类号G06F16/36(2019.01);G06F16/35(2019.01);G06F40/211(2020.01);G06F40/295(2020.01);G06F40/30(2020.01);G06N3/02(2006.01);

  • 代理机构北京磐华捷成知识产权代理有限公司 11851;

  • 代理人谢栒

  • 地址 230088 安徽省合肥市高新区望江西路666号

  • 入库时间 2023-06-19 16:11:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2021113965101 申请日:20211123

    实质审查的生效

说明书

技术领域

本发明涉及人工智能技术领域,更具体地,涉及知识图谱构建方法、知识图谱构建系统和计算设备。

背景技术

目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。

现有的知识图谱构建方法,通过句子级的关系抽取方式实现,但是一些数据中隐含的三元组并不在一句话的范围中,现有的句子级关系抽取方式往往会丢失许多结构化数据信息。此外,传统知识图谱中,知识一般都是静态知识,而人类社会一般是动态活动的,因此静态的三元组信息没有考虑动态变化的知识,可能会存在错误。另外,传统方法仅通过抽取的方式构建知识地图谱,没有较为完善的图谱清洗、自动补充机制,构建的知识图谱准确性不高,容易出现部分属性或关系丢失的情况。

因此,需要一种新型的知识图谱构建方法、知识图谱构建系统和计算设备,以解决上述问题。

发明内容

在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。

根据本发明的一方面,提供了一种知识图谱构建方法,所述方法包括:获取作为原始数据的文本,对所述文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果;以及对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。

在一个实施例中,其中对所述文本进行篇章级知识抽取包括:基于预设的类别标签,使用滑动窗口对所述文本进行知识抽取,以抽取所述文本中与所述类别标签对应的知识要素;对所抽取的知识要素进行关联,得到所述知识抽取结果。

在一个实施例中,其中使用滑动窗口对所述文本进行知识抽取包括:使用所述滑动窗口在所述文本上滑动,针对每个类别标签,计算所述滑动窗口内所述文本中每个字的预测概率;计算同一字在所述滑动窗口的各个位置下的各个预测概率的平均值,作为所述字的最终预测概率;基于各个字的最终预测概率,根据预设的知识要素选择条件从所述文本中选取所述知识要素。

在一个实施例中,对所抽取的知识要素进行关联包括:对所述知识要素的每个字进行处理,得到每个字的字向量;对所述知识要素对应的所有字的字向量进行处理,得到所述知识要素的要素向量;对各个知识要素的要素向量进行关联判断,得到针对各个知识要素的关联结果;根据所述关联结果对所述知识要素进行组合,得到所述知识抽取结果。

在一个实施例中,对所述文本进行句子级事件抽取包括:基于预设的事件触发词标签预测所述文本的每个句子中的每个字是否是触发词及其触发词类型;使用预测出的触发词、触发词类型及所述触发词的位置,基于预设的事件参数标签预测所述句子中与所述触发词相对应的事件参数及其参数类型;对所述触发词及所述事件参数进行组合,得到所述事件抽取结果。

在一个实施例中,对所述知识抽取结果和所述事件抽取结果进行知识融合包括:对所述知识抽取结果和所述事件抽取结果进行实体链接处理以得到实体链接结果,所述实体链接结果指示所述知识抽取结果与所述事件抽取结果中的各个实体是否为同一实体,以及所述各个实体与所述知识图谱中已有的实体是否为同一实体;基于所述实体链接结果将所述知识抽取结果和所述事件抽取结果进行重新组合,以得到用于所述知识图谱的图谱知识。

在一个实施例中,对所述知识抽取结果和所述事件抽取结果进行知识融合还包括:基于所述图谱知识和/或所述知识图谱中的已有知识推理出新的图谱知识;用所述新的图谱知识更新所述知识图谱。

在一个实施例中,所述方法还包括:对所述事件抽取结果进行篇章内指称链识别,以根据预设的篇章内事件共指特征类型确定对所述文本的各个事件抽取结果是否指向同一事件;对所述事件抽取结果进行跨篇章事件共指消解处理,以根据预设的跨篇章事件共指特征类型确定对所述文本的所述事件抽取结果与所述知识图谱中已有的事件是否指向同一事件;基于所述确定,去除重复事件。

在一个实施例中,所述方法还包括知识清洗步骤,用于更正或去除冗余或错误的信息,其中所述知识清洗步骤包括冗余表述合并、明显错误修正及去除、相似实体推断及补充属性名称、同义属性名称合并。

根据本发明的另一方面,提供了一种知识图谱构建系统,所述系统包括:复合知识抽取模块,用于对获取的作为原始数据的文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果;复合知识融合模块,用于对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。

根据本发明的又一实施例,提供了一种计算设备,所述计算设备包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如上所述的方法。

根据本发明的再一实施例,提供了一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序在被运行时,执行如上所述的方法。

根据本发明实施例的知识图谱构建方法、知识图谱构建系统和计算设备,将知识图谱的概念从传统的静态知识三元组变为包含静态知识五元组以及动态事件知识在内的复合知识,使用篇章级要素抽取与要素关联,可以大大提升五元组的提取效率与召回率,使得知识结构化属性更强。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。

附图中:

图1为根据本发明的一个实施例的实现根据本发明实施例的知识图谱构建方法、知识图谱构建系统和计算设备的电子设备的示意性结构框图。

图2为根据本发明的一个实施例的知识图谱构建方法的示例性步骤流程图。

图3示出了根据本发明的一个实施例的使用滑动窗口对文本进行知识抽取的示意图。

图4示出了根据本发明的一个实施例的知识图谱构建系统的示意性结构框图。

图5示出了根据本发明的一个实施例的计算设备的示意性结构框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

如上所述,现有的知识图谱构建方法会丢失许多结构化数据信息,没有考虑动态变化的知识,可能会存在错误。

因此,为了,本发明提供了一种知识图谱构建方法,该方法包括:获取作为原始数据的文本,对所述文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果;以及对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。

根据本发明的知识图谱构建方法,将知识图谱的概念从传统的静态知识三元组变为包含静态知识五元组以及动态事件知识在内的复合知识,使用篇章级要素抽取与要素关联,可以大大提升五元组的提取效率与召回率,使得知识结构化属性更强。

下面结合具体实施例详细描述根据本发明的知识图谱构建方法、知识图谱构建系统和计算设备。

首先,参照图1来描述用于实现根据本发明实施例的知识图谱构建方法、知识图谱构建系统和计算设备的电子设备100。

在一个实施例中,电子设备100可以是例如笔记本电脑、台式计算机、平板电脑、学习机、移动设备(诸如,智能手机、电话手表等)、嵌入式计算机、塔式服务器、机架服务器、刀片服务器或任何其他合适的电子设备。

在一个实施例中,电子设备100可以包括至少一个处理器102和至少一个存储器104。

其中,存储器104可以是易失性存储器,诸如随机存取存储器(RAM)、高速缓存存储器(cache)、动态随机存取存储器(DRAM)(包括堆叠的 DRAM)或高带宽存储器(HBM)等,也可以是非易失性存储器,诸如只读存储器(ROM)、闪存、3D Xpoint等。在一个实施例中,存储器104 的某些部分可以是易失性存储器,而另一部分可以是非易失性存储器 (例如,使用两级存储器层次结构)。存储器104用于存储计算机程序,该计算机程序在被运行时,能够实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。

处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)、微处理器或具有数据处理能力和/或指令执行能力的其他处理单元。处理器102可经由通信总线通信地耦合到任何合适数量或种类的组件、外围设备、模块或设备。在一个实施例中,通信总线可以使用任何合适的协议来实现,诸如外围组件互连(PCI)、快速外围组件互连(PCIe)、加速图形端口(AGP)、超传输或任何其他总线或一个或更多个点对点通信协议。

电子设备100还可以包括输入装置106和输出装置108。其中,输入装置106是用于接收用户输入的装置,其可以包括键盘、鼠标、触摸板、麦克风等。此外,输入装置106也可以是任何接收信息的接口。输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),其可以包括显示器、扬声器等中的一个或更多个。此外,输出装置108 也可以是任何其他具备输出功能的设备,例如打印机等。

下面参考图2描述根据本发明的一个实施例的知识图谱构建方法 200的示例性步骤流程图。如图2所示,知识图谱构建方法200可以包括如下步骤:

在步骤S210中,获取作为原始数据的文本,对该文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果。

在一个实施例中,原始数据可以包括结构化数据、半结构化数据、非结构化数据,该步骤主要用于对非结构化数据进行处理。

其中,结构化数据是指可以直接使用关系型数据库存储的数据,即传统的三元组形式,例如(茅盾,原名,沈德鸿)。

半结构化数据是结构化数据的一种形式,但它并不符合关系型数据库或以其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义要素以及对记录和字段进行分层。因此,它也被成称为自描述的结构。常见的半结构化数据有XML、JSON等格式。

非结构化数据是指没有结构化信息的普通文本数据。

在一个实施例中,可以采用任何本领域公知的预训练语言模型(例如BERT(基于转换器的双向编码器表示)模型、RoBERTa模型、ALBERT 模型、NEZHA模型、XLNET模型、GPT模型、UniLM模型等)对文本进行篇章级知识抽取,本发明对此不作限定。但上述本领域公知的预训练语言模型进行篇章级知识抽取都不能解决篇章级知识抽取的问题,因此本发明在采用预训练语言模型的基础上,在训练阶段对预训练语言模型进行了一些处理,并采用滑动窗口策略,从而解决了篇章级知识抽取的问题。

具体地,在训练阶段对预训练语言模型进行的处理包括:

(1)在文本过长时,使用滑动窗口策略,将长文本(例如,超过 512字符)分割成多个文本片段,每个文本片段结合问题形成一条训练数据;

(2)参考SQuAD(阅读理解)任务,预测答案在正文中的开始和结束位置。此时分为以下四种情况处理:

-滑动窗口内包含完整答案,开始位置和结束位置为具体某一Tok 位置;

-滑动窗口内无答案片段,开始位置和结束位置均为[CLS]位置;

-滑动窗口内包含答案的靠前部分片段,开始位置为具体Tok位置,结束位置为[CLS]位置;

-滑动窗口内包含答案的靠后部分片段,开始位置为[CLS]位置,结束位置为具体Tok位置。

在一个实施例中,对文本进行篇章级知识抽取可以包括如下步骤:

在步骤a1中,基于预设的类别标签,使用滑动窗口对文本进行知识抽取,以抽取文本中与类别标签对应的知识要素;

在步骤a2中,对所抽取的知识要素进行关联,得到知识抽取结果。

在一个实施例中,类别标签可分级进行设置,例如一级标签、二级标签、三级标签等。如下表一示出了示例性的类别标签:

表一

其中,网络位置、微信、新浪、QQ、淘宝、职业、毕业院校这些二级标签可以进行分组。

现在参考图3,图3示出了根据本发明的一个实施例的使用滑动窗口对文本进行知识抽取的示意图。

如图3所示,针对长文本的篇章场景,可以预设滑动窗口(如图3 中的实线矩形所示)的大小以及滑动步长,以在篇章的全部文本上滑动。图3中以1000字文本(包括CLS、SEP等构造标记)为例,预设滑动窗口的大小为512字,滑动步长为128字,则一共滑动得到8个窗口(图中未全部示出),起始位置分别是第1、129、257、385、513、641、769、 897字。

在使用上述滑动窗口在作为原始数据的长文本上滑动时,针对预设的每个类别标签,计算滑动窗口内文本中每个字的预测概率,然后计算同一字在滑动窗口的各个位置下的各个预测概率的平均值(如图3中的虚线矩形所示),作为该字的最终预测概率,然后基于各个字的最终预测概率,根据预设的知识要素选择条件从文本中选取知识要素。

在一个实施例中,在得到各个字的最终预测概率后,可根据下述示例性的知识要素选择条件从原始数据中选取知识要素:

—输出最终预测概率最高的10组开始、结束位置概率;

—与CLS位置概率比较,去除10组开始、结束位置概率中最终预测概率低于CLS位置概率的开始、结束位置概率;

—剩余的开始、结束位置概率中,去除最终预测概率低于最高预测概率十分之一的开始、结束位置概率。

此外,不同组开始、结束位置组合成的文本片段,可以去除部分重复文本片段的重复部分,例如开始、结束位置组合为<5,10>与<8,12>的两组,可修正为<5,7>与<8,12>。

根据上述知识要素选择条件得到最终的几组开始、结束位置后,其对应的文本片段即为所选取的知识要素。

在一个实施例中,可以采用任何本领域公知的语言表征模型(例如 BERT模型)对所抽取的知识要素进行关联,本发明对此不作限定。

在一个实施例中,对所抽取的知识要素进行关联可以包括如下步骤:

在步骤b1中,对所抽取的知识要素的每个字进行处理,得到每个字的字向量表示。

示例性地,使用预训练模型或其他模型(例如BERT模型)获得每个字的字向量。

在步骤b2中,对每个知识要素对应的所有字的字向量进行处理,得到该知识要素的要素向量。

示例性地,可以使用神经网络算法+池化方式对所有字的字向量进行处理,得到该知识要素的要素向量。

在步骤b3中,对各个知识要素的要素向量进行关联判断,得到针对各个知识要素的关联结果。

示例性地,可以使用本领域公知的任何分类网络(例如sigmoid网络等)对两个知识要素的要素向量进行关联判断,本发明对此不作限定。

示例性地,可以以一个或更多个知识要素为中心,其他知识要素与其进行二分类判断,从而得到针对各个知识要素的关联结果。例如,以人物的名称为中心,其他所有知识要素与其进行二分类判断,如果抽取出的知识要素没有相关名称,则不再进行知识要素的关联判断,该知识要素内容作废。

示例性地,对于例如网络位置、微信、新浪、QQ、淘宝、职业、毕业院校等这些需要进行分组的二级标签,优先以三级标签的第一行的内容为中心,判断其他知识要素是否与其相关联。

在步骤b4中,根据关联结果对知识要素进行组合,得到知识抽取结果。

示例性地,知识抽取结果可以包括知识要素的三元组和/或五元组。

如下表二示出了示例性的知识抽取结果。

在一个实施例中,在得到知识抽取结果后,还可以对知识抽取结果进行后处理。示例性地,后处理可以包括:

(1)如果某一知识要素内容关联到多个知识要素,根据其关联概率,如果关联概率都大于预设的阈值,则保留对应的那一组或者几组关联内容;

(2)如果两个待预测的知识要素在多个滑动窗口中出现,多个滑动窗口都会给出预测结果,则将关联概率最高的那组结果作为最终预测概率。

在一个实施例中,对文本进行句子级事件抽取可以包括如下步骤:

在步骤c1中,基于预设的事件触发词标签预测文本的每个句子中的每个字是否是触发词及其触发词类型。

在一个实施例中,事件触发词标签可以根据需要进行自定义,本发明对此不作限定。

如下表三示出了根据一个实施例的示例事件触发词标签。

表三

在一个实施例中,可以使用经训练的触发词模型来预测触发词及其触发词类型。其中,触发词模型可以由本领域公知的任何合适的模型(例如BERT语义表示模型等)经训练而得到,本发明对此不作限定。

在一个实施例中,可以使用触发词模型(例如经训练的BERT语义表示模型)中的语义表示模型获取句子中每个词的语义表示,然后对每个词进行分类(类别为序列标注标签体系,以及BIOES与触发词类别名称配合),将输出概率超过预定阈值的触发词序列作为触发词的预测结果。应理解,一个句子中可能有多个触发词。

在一个实施例中,触发词模型获取句子中每个词的语义表示的示例过程如下:获取[CLS]和句子中每个词的语义表示,然后针对句子中每个词的语义表示,输出每个词的序列标注输出结果(BIOES与触发词类别名称的配合),将输出概率超过预定阈值的触发词序列作为触发词预测结果。

在步骤c2中,使用预测出的触发词、触发词类型及触发词的位置,基于预设的事件参数标签预测该句子中与所述触发词相对应的事件参数及其参数类型。

在一个实施例中,事件参数标签可以根据需要进行自定义,本发明对此不作限定。

如下表四示出了根据一个实施例的示例事件参数标签。

表四

在一个实施例中,可以使用经训练的参数模型来预测与预测出的触发词相对应的事件参数及其参数类型。其中,参数模型可以由本领域公知的任何合适的模型(例如BERT语义表示模型等)经训练而得到,本发明对此不作限定。

在一个实施例中,参数模型与触发词模型类型,只是输入端多一个标记位,句子中当前处理的触发词位置标记位为1,其他触发词位置标记位为0,以此表示当前处理的是哪个触发词,经过参数模型中的语义表示模型之后,后续步骤与触发词模型的预测过程类似。

在一个实施例中,参数模型预测与预测出的触发词相对应的事件参数及其参数类型的示例过程如下:将预测出的触发词对应位置的Segment设置为1,其他位置设置为0,使用例如BERT语义表示模型获取句子中每个词的语义表示,针对句子中每个词的的语义表示,输出每个词的序列标注输出结果(BIOES与参数类别配合),将输出概率超过预定阈值的触发词序列作为参数预测结果。

在步骤c3中,对预测出的触发词及事件参数进行组合,得到事件抽取结果。

在一个实施例中,事件抽取结果可以包括触发词及事件参数的三元组和/或五元组。

在一个实施例中,在得到事件抽取结果后,可以对事件抽取结果进行事件共指消解处理。事件共指消解处理的目标是有效地理解文本中的指称是否指向同一事件,并在确定指向同一事件时,去除重复事件。

在一个实施例中,事件共指消解处理可以包括两个步骤:一是篇章内指称链识别,用于根据预设的篇章内事件共指特征类型确定对文本的各个事件抽取结果是否指向同一事件;二是基于指称链的跨篇章事件共指消解,用于根据预设的跨篇章事件共指特征类型确定对文本的事件抽取结果与知识图谱中已有的事件是否指向同一事件。

在一个实施例中,首先,可以预先设置用于事件共指消解处理的特征类型,包括篇章内事件共指特征类型和跨篇章事件共指特征类型,然后根据篇章内事件共指特征类型按照预定的判断规则来确定对文本的各个事件抽取结果是否指向同一事件,以及根据预设的跨篇章事件共指特征类型按照预定的判断规则来确定对文本的事件抽取结果与知识图谱中已有的事件是否指向同一事件。

在一个实施例中,判断规则可以根据需要预先设定,例如事件的2 个、3个、4个等数量的特征相同,即可确定两个事件为同一事件,本发明对此不作限定。

目前已知的基于篇章内的事件共指消解研究绝大多依赖于特征空间的选择。在过去的十几年间,许多学者针对事件共指消解任务的特殊性提出了不同的特征。与传统的自然语言处理相比,由于指称由属性、论元等组成,所以特征工程上也更加呈现出离散性的特点。

如下表五和表六分别给出了篇章内事件共指特征类型和跨篇章事件共指特征类型的示例性设计。

表五篇章内事件共指特征

表六跨篇章事件共指特征

为了便于理解,下面对表六的特征进行说明如下:

1)指称链属性特征

每个指称链均对应于一个类型、子类型,在抽取指称链的类型特征中,通过判断两个指称链的类型、子类型是否一致,可以消除类型不一致的指称链对性能的影响;在抽取指称链的泛型特征中,由于每个指称链中可能存在多个不同的泛型,我们对这些可能出现的泛型进行了枚举并进行了编码,将编码后的泛型作为泛型类别特征;同时为了判断两个指称链之间的泛型是否一致,我们选取每个指称链中出现频率最频繁的泛型作为该指称链的主要泛型,根据两个指称链中的主要泛型来判断指称链之间的泛型一致性。

2)指称链触发词特征

触发词作为事件组成的核心部分,在事件共指消解任务中也具有举足轻重的作用,许多工作也是围绕着触发词展开。我们在传统特征工程基础上考虑到指称链可能由多个指称组成的因素后,从指称链中抽取出触发词集合。通过比较是否具有相同的触发词,从而得到触发词相同和不同的数量;通过利用NLTK中的接口来获取每个触发词的词根和词性,并分别判断它们的词根、词性的一致性;为了避免不同文章叙述之间的差异,我们对触发词做了相似度计算,作为触发词相似度特征。

3)指称链论元特征

论元作为事件的一个重要组成成分,对于理解事件信息有着非常重要的作用。通过论元信息,我们可以知道事件所发生的时间、地点、人物等信息。由于指称链中的指称都指向同一个事件,各个指称所包含的论元信息也指向同一个事件所对应的论元,通过获取和合并同一个指称链中不同指称的不同论元角色及其中心词,我们可以得到一个指称链的论元。通过合并不同指称中的不同论元及中心词,极大的丰富了该指称链的论元所包含的信息。在指称链的论元特征抽取部分,我们通过比较指称链间具有相同论元角色的数量作为特征,并比较相同论元角色中它们对应的中心词是否有重合作为进一步特征。

4)指称链分布特征

指称链在文本中的分布情况也能帮助我们理解跨篇章事件共指消解。如果一个指称链中指称的数量越多,该指称链指向的事件往往在该篇章中的重要性也越高;同时在相同主题下的其他文章中,该事件也不约而同的被多次提及,这符合新闻文本追逐报道热点事件的特性。依据指称链提及的频繁程度我们分别提出了指称链长度比值特征、指称链文本重要性特征,其中文本重要性特征通过计算该指称链中所包含的指称数量在该文中所有的指称数量中的占比得到;此外,指称链在文本中广度分布情况也便于我们理解该指称链在篇章中的重要程度。基于此我们获取了每个指称在该篇章中的相对位置以及该指称所在的句子在该篇章中的相对位置。依赖这指称链中上述位置的分布情况,提出了指称相对位置首末差比值特征和句子相对位置首末差比值特征。

在步骤S220中,对知识抽取结果和事件抽取结果进行知识融合,以获得知识图谱。

其中,知识融合可以包括如下步骤:对知识抽取结果和事件抽取结果进行实体链接处理以得到实体链接结果,其中所述实体链接结果指示知识抽取结果与事件抽取结果中的各个实体是否为同一实体,以及所述各个实体与知识图谱中已有的实体是否为同一实体。基于所述实体链接结果将所述知识抽取结果和事件抽取结果进行重新组合,以得到用于知识图谱的图谱知识。

在一个实施例中,实体链接处理包括:将知识抽取结果中的实体、属性与现有的知识图谱中的实体、属性进行比较,确定是否为同一实体,还要将事件抽取结果中的实体、属性与现有的知识图谱中的实体、属性进行比较,确定是否为同一实体。换言之,本发明的实体链接不只是针对知识抽取的三元组或者五元组,还需要判断事件抽取结果中的实体类型参数与现有的三元组或者五元组中的实体是不是同一实体。

在一个实施例中,实体链接处理利用无监督实体对齐算法,其综合利用关系和属性三元组进行实体链接。该算法首先利用属性三元组去进行迭代式的实体对齐,产生的对齐结果可以作为嵌入模型的训练数据,嵌入模型利用关系三元组又得到另一部分对齐结果,最后,通过回归模型将两部分对齐结果合并起来,作为最终实体链接的结果。

在一个实施例中,对知识抽取结果和事件抽取结果进行实体链接处理可以包括如下步骤:

在步骤a中,对知识库中的实体数据进行预处理。按照宾语的类型,将知识图谱中的三元组分成属性三元组和关系三元组两部分,针对属性三元组,制定规则进行属性值的规范化。

在步骤b中,利用属性三元组进行实体对齐处理。

在步骤c中,利用关系三元组进行实体对齐处理。

在步骤d中,利用回归模型合并两部分结果:将迭代模型的结果作为训练数据,利用回归模型,以学习到某个权重,将两部分结果合并起来,得到最终的实体对齐结果,而不是直接人工指定权重,直接合并两个结果集。这样做是为了更好地利用各个数据集中实体的关系与属性的分布特征,从直观上理解,由于不同数据集中的实体拥有的关系和属性的数量及质量是不同的,所以设置固定的权重是不合理的。

在一个实施例中,利用属性三元组进行实体对齐可以包括:计算两个实体间同一属性的属性值相似度(例如,可以使用编辑距离、余弦距离等),对所有同一属性下的属性值进行加和并取平均,得到的平均属性值相似度用来衡量两个实体的相似度,从而得到实体对齐结果。

由于不同的知识图谱拥有的相同属性的数量太少,而基于已对齐的实体对,可以找到很多表达不一致但含义相同的属性对,利用这些新的属性对,又可以找到更多的实体对。因此,在一个实施例中,在进行实体对齐时,同时进行属性对齐,以找到更多的实体对。换言之,让实体对齐和属性对齐两个任务之间进行交互,并且把这两个任务捆绑在一起,迭代式地执行,以减轻属性名称的多样性给实体对齐带来的问题。

在一个实施例中,利用关系三元组进行实体对齐可以包括:设置关系阈值,从利用属性三元组进行实体对齐产生的结果中筛选出高质量的实体对,作为利用关系三元组进行实体对齐的模型(例如,embedding (嵌入)模型)的训练数据,从而得到另一些实体对齐结果。

在一个实施例中,可以利用回归模型来合并两部分的实体对齐结果,以得到实体链接结果。使用回归模型进行合并可以更好地利用各个数据集中实体的关系与属性的分布特征,从而使得实体链接结果更加合理、准确。

在一个实施例中,知识融合还可以包括:基于上述得到的图谱知识和/或知识图谱中的已有知识推理出新的图谱知识,用该新的图谱知识更新知识图谱。利用图谱中现有的知识(三元组),得到一些新的实体间的关系或者实体的属性(三元组)的过程称为知识推理。例如,知识图谱中已有两个三元组:<张三,老婆,李四>,和<张三,妈妈,王五>,通过知识推理,可以得到<李四,婆婆,王五>。

示例性地,可以采用本领域公知的任何推理方法来推理新的图谱知识,例如基于Tableaux运算、基于逻辑编程改写的方法、基于一阶查询重写的方法、基于产生式规则的方法等,本发明对此不作限定。

在一个实施例中,知识图谱构建方法200还可以包括知识清洗步骤,用于更正或去除冗余或错误的信息。其中,知识清洗步骤可以包括冗余表述合并、明显错误修正及去除、相似实体推断及补充属性名称、同义属性名称合并等,本发明对此不作限定。

在一个实施例中,可以采用本领域公知的任何模型或神经网络进行知识清洗,本发明对此不作限定。

在一个实施例中,冗余表述合并可以采用属性值信息解析模型来实现。例如,以户籍地为例,首先可以用属性值信息解析模型解析出省、市、区(县)、乡镇、村、小区、居民楼、户号等信息,然后合并重复度较高的表述。其中,属性值信息解析模型通常包括两个部分:实体边界识别和实体分类,其中实体边界识别用于判断一个字符串是否组成一个完整实体,而实体分类用于将识别出的实体划分到预设的不同类别中。

其中,明显错误修正及去除可以对部分存在格式要求、取值范围等明确限制的属性值数据设置检验规则,以去除不满足检验规则的属性值数据。例如,国内手机号位数为11位,如果手机号为1336836,为明显错误数据,则可修正或去除该数据。

在一个实施例中,可以采用具有归纳式推理能力的图神经网络,例如图归纳学习(Graph Inductive Learning(GraIL))模型等,来进行相似实体推断及补充属性名称,本发明对此不作限定。

下面简要描述利用GraIL模型来进行相似实体推断及补充属性名称的示例过程。

首先,GraIL模型围绕待判断的事实进行包络子图抽取,即对该事实中的首尾节点分别提取k跳邻域子图,对得到的首尾邻域子图取交集,由此得到围绕事实的包络图。

其次,利用提取的包络子图结构对子图中的节点进行特征编码。这里通过度量子图中的每个点和目标节点的距离得到其特征表示,例如对于目标节点为u,v的子图中的某点i,用一个元组(d(i,u),d(i,v))表示其特征,其中d(.,.)表示两点间的最短距离。特别地,u,v两点分别以(0,1), (1,0)进行表示。

最后,对待判断的事实进行评估,GraIL模型在包络子图上进行推理并对事实合理性进行打分。

由于整个过程不需要预训练图中节点的特征,故GraIL具有归纳学习的特点。

训练该GraIL模型的网络参数时,其损失函数的示例设计如下:

其中,ni、pi分别表示负样本和正样本,正样本来自训练数据集,负样本则通过随机替换正样本的头尾实体生成。负样本的得分越高、正样本的得分越低,则损失越大,优化的最终目标是使所有合理的事实得分高,不合理的事实得分低,即使GraIL模型拥有判断正确事实的能力。

在用训练好的GraIL模型实现对目标属性的推理时,可以根据目标的待预测属性生成一个候选集,并对该候选集中的每个事实进行可能性打分,得分最高的事实中的属性即为预测属性。

同义属性名称合并的本质是需要发现意义相同的属性名称,即文本相似度检验。在一个实施例中,可以采用句子BERT(Sentence-BERT (SBERT))模型来进行同义属性名称合并。该模型结构利用孪生网络和三胞胎网络结构生成具有语义意义的句子嵌入向量,语义相近的句子,其嵌入向量距离就比较近,从而可以用来进行相似度计算(余弦相似度、曼哈顿距离、欧式距离)。该模型结构在查找最相似的句子对时,计算开销低至5秒(计算余弦相似度大概0.01s),精度能够依然保持不变。这样 SBERT模型可以完成某些新的特定任务,例如相似度对比、聚类、基于语义的信息检索。

为了进行精细调节,句子BERT模型可以采用孪生网络和三胞胎网络来更新权重参数,以使得生成的句子向量具有语义意义。

句子BERT模型依赖于具体的训练数据,在一个实施例中,本文可以采用以下目标函数:分类目标函数、回归目标函数或三元组目标函数。

其中,采用回归目标函数或三元组目标函数时,给定一个主句a、一个正面句子p和一个负面句子n,三元组损失调整网络,使得a和p 之间的距离小于a和n之间的距离。数学上,我们最小化以下损失函数:

max(||s

s表示a、p、n的句子嵌入向量,||·||表示距离,边缘参数ε表示s

在另一实施例中,本发明提供了一种知识图谱构建系统。参考图4,图4示出了根据本发明的一个实施例的知识图谱构建系统400的示意性结构框图。如图4所示,知识图谱构建系统400可以包括复合知识抽取模块410和复合知识融合模块420。其中,复合知识抽取模块410用于对获取的作为原始数据的文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果。复合知识融合模块420用于对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。

本领域技术人员可以结合前文所述的内容理解根据本发明实施例的知识图谱构建系统400的具体实现方法,为了简洁,此处不再赘述具体的细节。

在又一实施例中,本发明提供了一种计算设备。参考图5,图5示出了根据本发明的一个实施例的计算设备500的示意性结构框图。如图 5所示,计算设备500可以包括存储器510和处理器520,其中存储器 510上存储有计算机程序,该计算机程序在被该处理器520运行时,使得处理器520执行如上所述的知识图谱构建方法200。

本领域技术人员可以结合前文所述的内容理解根据本发明实施例的计算设备500的具体操作,为了简洁,此处不再赘述具体的细节,仅描述处理器520的一些主要操作如下:

获取作为原始数据的文本,对所述文本进行篇章级知识抽取和句子级事件抽取,以获得知识抽取结果和事件抽取结果;以及

对所述知识抽取结果和所述事件抽取结果进行知识融合,以获得知识图谱。

在又一实施例中,本发明提供了一种计算机可读介质,该计算机可读介质上存储有计算机程序,所述计算机程序在运行时执行如上述实施例所述的知识图谱构建方法200。任何有形的、非暂时性的计算机可读介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光存储设备 (CD-ROM、DVD、蓝光光盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。

本发明的有益效果如下:

(1)本发明将知识图谱的概念从传统的静态知识三元组变为包含静态知识五元组以及动态事件知识在内的复合知识,使用篇章级要素抽取与要素关联,可以大大提升五元组的提取效率与召回率,使得知识结构化属性更强。

(2)通过事件抽取结果中的实体参数,进行实体链接与跨篇章事件共指消解,将事件与实体信息关联,形成复合知识图谱。

(3)本发明具有一套完善的自动化知识清洗更新流程,可以有效提升最终的知识图谱的质量。

尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图) 中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号