首页> 中国专利> 知识图谱本体构建方法、装置、终端设备及可读存储介质

知识图谱本体构建方法、装置、终端设备及可读存储介质

摘要

本申请适用于计算机技术领域,提供了一种知识图谱本体构建方法、装置、终端设备及可读存储介质。知识图谱本体构建方法包括:获取目标领域的语料;将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,所述通用领域是指与目标领域不同的领域;根据所述目标主谓宾实体构建知识图谱本体。本申请提供的知识图谱本体构建方法构建知识图谱本体及知识图谱的效率高。

著录项

  • 公开/公告号CN112818138A

    专利类型发明专利

  • 公开/公告日2021-05-18

    原文格式PDF

  • 申请/专利权人 中译语通科技股份有限公司;

    申请/专利号CN202110419343.1

  • 发明设计人 傅兴玉;程国艮;

    申请日2021-04-19

  • 分类号G06F16/36(20190101);G06F40/295(20200101);

  • 代理机构11768 北京兴智翔达知识产权代理有限公司;

  • 代理人郭卫芹

  • 地址 100131 北京市石景山区石景山路20号中铁建设大厦16层

  • 入库时间 2023-06-19 11:02:01

说明书

技术领域

本申请属于计算机技术领域,尤其涉及一种知识图谱本体构建方法、装置、终端设备及可读存储介质。

背景技术

行业知识图谱构建是非常复杂的系统工程,其中最重要的环节是该行业的知识图谱本体构建和知识图谱提纲(Schema)设计,这关系到知识抽取和关系抽取,且知识图谱本体构建和知识图谱提纲设计也是行业知识图谱应用的重要信息结构依托。

传统技术中,行业知识图谱构建是由专业领域的专家根据经验构造出一个知识图谱的提纲,之后在实践过程通过人工标注语料,基于标注的语料构建知识图谱本体,最终实现行业知识图谱的构建。

然而,通过人工构建行业知识图谱,存在效率低下的问题。

发明内容

本申请提供一种知识图谱本体构建方法、装置、终端设备及可读存储介质质,可以解决知识图谱构建效率低下的问题。

第一方面,本申请实施例提供了一种知识图谱本体构建方法,包括:

获取目标领域的语料;

将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,所述通用领域是指与目标领域不同的领域;

根据所述目标主谓宾实体构建知识图谱本体。

在其中一个实施例中,基于所述通用领域的三元组主谓宾语料训练得到所述目标实体抽取模型,包括:

将主语、谓语和宾语作为实体,对所述通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料;

对所述主谓宾类型标注语料进行序列标注,得到序列标注语料;

基于所述序列标注语料,对预先建立的实体抽取模型进行训练,得到所述目标实体抽取模型。

在其中一个实施例中,所述目标实体抽取模型为基于转换器的双向编码表征、双向长短期记忆网络和条件随机场算法的模型。

在其中一个实施例中,所述目标主谓宾实体包括目标主语、目标谓语和目标宾语,所述根据所述目标主谓宾实体构建知识图谱本体,包括:

对所述目标主语和所述目标谓语进行统计分割,得到主谓组合;

对所述目标谓语和所述目标宾语进行统计分割,得到谓宾组合;

将所述主谓组合和所述谓宾组合进行交叉组合,得到所述知识图谱本体。

在其中一个实施例中,所述对所述目标主语和所述目标谓语进行统计分割,得到主谓组合,包括:

对所述目标主语和所述目标谓语进行共现统计,得到多个主谓共现矩阵,每个所述主谓共现矩阵对应不同的主语类型;

从所述多个主谓共现矩阵中筛选出满足第一组合条件的目标主谓共现矩阵;

将所述目标主谓共现矩阵对应的主语类型和谓语类型进行组合,得到所述主谓组合。

在其中一个实施例中,所述对所述目标主语和所述目标谓语进行共现统计,得到多个主谓共现矩阵,包括:

建立多个二维统计矩阵,每个所述二维统计矩阵包括主语列和谓语列,其中,不同的二维统计矩阵的主语列对应的主语类型不同;

确定每个所述目标主语的类型,并向与所述目标主语的类型一致的主语列计数加1;

确定每个所述目标谓语的类型,并向所述谓语列计数加1,得到所述多个主谓共现矩阵。

在其中一个实施例中,所述方法还包括:

根据所述知识图谱本体构建所述目标领域的知识图谱。

第二方面,本申请实施例提供了一种知识图谱本体构建装置,包括:

获取模块,用于获取目标领域的语料;

抽取模块,用于将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述实体抽取模型是基于通用领域的三元组语料训练得到,所述通用领域是指与目标领域不同的领域;

构建模块,用于根据所述目标主谓宾实体构建知识图谱本体。

第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的知识图谱本体构建方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的知识图谱本体构建方法。

本申请提供的一种知识图谱本体构建方法、装置、终端设备及可读存储介质,通过获取目标领域的语料,将目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,根据目标主谓宾实体构建知识图谱本体。本实施例提供的方法能够实现目标领域知识图谱本体的自动构建,无需人工构建,不仅提高了知识图谱本体构建的效率,而且提高了知识图谱本体构建的准确性。同时,目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,通用领域与目标领域不同,通用领域可以选用较容易进行语料标注的领域,或者以实现语料标注的成熟领域,即,通用领域的语料标注较容易实现。通过通用领域的三元组主谓宾语料训练得到的目标实体抽取模型能够从目标领域的语料中抽取出三元组主谓宾实体,通过迁移学习的方式解决了目标领域存在的语料标准困难的问题,方便了目标领域知识图谱本体及知识图谱的构建。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的知识图谱本体构建方法所适用于的终端结构示意图;

图2是本申请一实施例提供的知识图谱本体构建方法的流程示意图;

图3是本申请另一实施例提供的知识图谱本体构建方法的流程示意图;

图4是本申请又一实施例提供的知识图谱本体构建方法的流程示意图;

图5是本申请一实施例提供的知识图谱本体构建装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

可以理解,本申请实施例中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

可以理解,本申请所使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

本申请实施例提供的知识图谱本体构建方法,可以应用于终端设备。示例性的,图1为本申请一实施例提供的终端设备的结构示意图。如图1所示,终端设备可以包括:处理器10、存储器11以及存储在存储器11中并可在处理器10上运行的计算机程序12,处理器10执行计算机程序12时可以实现本申请实施例提供的知识图谱本体构建方法。其中,本申请实施例对处理器10、存储器11的数量和类型不做限定。

其中,本申请实施例对终端设备1的类型不做限定。例如,可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。

下面将结合附图,对本申请中的技术方案进行详细描述。需要说明,在不冲突的情况下,本申请中不同的技术特征之间可以相互结合。

图2示出了本申请提供的知识图谱本体构建方法的示意性流程图。如图2所示,本实施例提供的知识图谱本体构建方法,可以包括:

S201、获取目标领域的语料。

目标领域是指待构建知识图谱本体的领域。目标领域可以为专业领域。专业领域相较于普通领域而言,其语料标注较为困难,知识图谱本体及知识图谱的构建难度较大。目标领域的语料是指待构建知识图谱本体的领域的相关语料。目标领域的语料可以预先存储于存储器,也可以从服务器等获取。

S202、将目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,通用领域是指与目标领域不同的领域。

可选的,通用领域可以为语料标注较为容易的普通领域,或者已经存在标注完成的语料的普通领域。基于通用领域的三元组主谓宾语料训练得到目标实体抽取模型,该目标实体抽取模型具备主谓宾(SPO)实体抽取和识别能力。将目标领域的语料输入该目标实体抽取模型,输出目标领域的语料中所包含的主谓宾实体,得到目标主谓宾实体。目标主谓宾实体的数量可以为多个,可选的,多个目标主谓宾实体可以通过三元组主谓宾列表的方式呈现和保存。

需要说明的是,本申请对于目标实体抽取模型的具体结构,以及目标实体抽取模型的训练过程不做任何限定,只要能够实现其功能即可。

S203、根据目标主谓宾实体构建知识图谱本体。

基于步骤S202抽取得到的目标主谓宾实体,进一步建立所需的知识图谱本体。

本实施例中,通过获取目标领域的语料,将目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,根据目标主谓宾实体构建知识图谱本体。本实施例提供的方法能够实现目标领域知识图谱本体的自动构建,无需人工构建,不仅提高了知识图谱本体构建的效率,而且提高了知识图谱本体构建的准确性。同时,目标实体抽取模型是基于通用领域的三元组主谓宾语料训练得到,通用领域与目标领域不同,通用领域可以选用较容易进行语料标注的领域,或者以实现语料标注的成熟领域,即,通用领域的语料标注较容易实现。通过通用领域的三元组主谓宾语料训练得到的目标实体抽取模型能够从目标领域的语料中抽取出三元组主谓宾实体,通过迁移学习的方式解决了目标领域存在的语料标准困难的问题,方便了目标领域知识图谱本体及知识图谱的构建。

图3为一个实施例中,训练得到目标实体抽取模型的一种可能的实现方式,如图3所示,基于通用领域的三元组主谓宾语料训练得到目标实体抽取模型,包括:

S301、将主语、谓语和宾语作为实体,对通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料。

可选的,主谓宾类型标注语料可以以列表等形式呈现和保存。例如,对某一通用领域的语料实体类型标注形成的列表为T={S1,S2,…,SM,P,O1,O2,…,ON}。其中,M是主语实体S的类型总数量,P是谓语实体类型,N是宾语实体O的实体类型总数量。则,通用领域的语料实体类型的数量为M+1+N。

S302、对主谓宾类型标注语料进行序列标注,得到序列标注语料。

具体的,对主谓宾类型标注语料进行主谓宾序列标注,标注主语、谓语和宾语在通用领域的语料中出现的位置及类型,得到通用三元组主谓宾序列标注语料,简称为序列标注语料。

S303、基于序列标注语料,对预先建立的实体抽取模型进行训练,得到目标实体抽取模型。

可选的,实体抽取模型可以为为基于变换的双向编码表征(BidirectionalEncoder Representation from Transformers,BERT)、双向长短记忆网络(BidirectionalLong Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)算法的模型,即BERT-BiLSTM-CRF模型。相应的,得到的目标实体抽取模型也为BERT-BiLSTM-CRF模型。

本实施例中,通过将主语、谓语和宾语作为实体,对通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料,对主谓宾类型标注语料进行序列标注,得到序列标注语料,基于序列标注语料,对预先建立的实体抽取模型进行训练,得到目标实体抽取模型。目标实体抽取模型能够从目标领域的语料中抽取出三元组主谓宾实体,通过迁移学习的方式解决了目标领域存在的语料标准困难的问题,方便了目标领域知识图谱本体及知识图谱的构建。

图4为一个实施例中,目标主谓宾实体包括目标主语、目标谓语和目标宾语。其中,目标主语是指从目标领域的语料中抽取得到的主语,目标谓语是指从目标领域的语料中抽取得到的谓语,目标宾语是指从目标领域的语料中抽取得到的宾语。如图4所示,在一个实施例中,S203包括:

S401、对目标主语和目标谓语进行统计分割,得到主谓组合(SP组合)。

作为一种实现方式,可以通过以下方式对目标主语和目标谓语进行统计分割:对目标主语和目标谓语进行共现统计,得到多个主谓共现矩阵L1,每个主谓共现矩阵L1对应不同的主语类型;从多个主谓共现矩阵L1中筛选出满足第一组合条件的目标主谓共现矩阵;将目标主谓共现矩阵对应的主语类型和谓语类型进行组合,得到主谓组合。

可选的,第一组合条件可以为大于第一分割阈值T1,即,从多个主谓共现矩阵L1中筛选出大于第一分割阈值T1主谓共现矩阵,得到目标主谓共现矩阵。

可选的,对目标主语和目标谓语进行共现统计,得到多个主谓共现矩阵L1,可以通过以下方式实现:建立多个二维统计矩阵,每个二维统计矩阵包括主语列和谓语列,其中,不同的二维统计矩阵的主语列对应的主语类型不同;确定每个目标主语的类型,并向与目标主语的类型一致的主语列计数加1;确定每个目标谓语的类型,并向谓语列计数加1,得到多个主谓共现矩阵L1。

S402、对目标谓语和目标宾语进行统计分割,得到谓宾组合(PO组合)。

作为一种实现方式,可以通过以下方式对目标谓语和目标宾语进行统计分割:对目标谓语和目标宾语进行共现统计,得到多个谓宾共现矩阵L2,每个谓宾共现矩阵L2对应不同的宾语类型;从多个谓宾共现矩阵L2中筛选出满足第二组合条件的目标谓宾共现矩阵;将目标谓宾共现矩阵对应的宾语类型和谓语类型进行组合,得到谓宾组合。

可选的,第二组合条件可以为大于第二分割阈值T2,即,从多个谓宾共现矩阵L2中筛选出大于第二分割阈值T2的谓宾共现矩阵,得到目标谓宾共现矩阵。

可选的,对目标谓语和目标宾语进行共现统计,得到多个谓宾共现矩阵L2,可以通过以下方式实现:建立多个二维统计矩阵,每个二维统计矩阵包括谓语列和宾语列,其中,不同的二维统计矩阵的宾语列对应的宾语类型不同;确定每个目标宾语的类型,并向与目标宾语的类型一致的宾语列计数加1;确定每个目标谓语的类型,并向谓语列计数加1,得到多个谓宾共现矩阵L2。

S403、将主谓组合和谓宾组合进行交叉组合,得到知识图谱本体。

本实施例中,通过共现统计的方式实现知识图谱本体的动态建模,提高了知识图谱本体构建的智能性,提高了构建效率和准确性。

在一个实施例中,所述方法还进一步包括:

根据知识图谱本体构建目标领域的知识图谱。

本实施例中,对于根据知识图谱本体构建目标领域的知识图谱的具体方法不做任何限定。可选的,上述构建的知识图谱本体方法可以与跨语言行业知识图谱构建平台相结合,针对语料稀缺领域,实现行业知识图谱的建模,进而实现行业知识图谱的快速搭建和快速迭代更新。

以下对知识图谱本体构建方法的整体过程进行说明,该方法可以包括:

1)将主语、谓语和宾语作为实体,对通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料;

2)对主谓宾类型标注语料进行序列标注,得到序列标注语料;

3)基于序列标注语料,对预先建立的实体抽取模型进行训练,得到目标实体抽取模型;

4)获取目标领域的语料;

5)将目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,目标主谓宾实体包括目标主语、目标谓语和目标宾语;

6)建立目标主语和目标谓语的共现统计矩阵,得到主谓共现矩阵;

7)对目标主语和目标谓语进行共现统计,得到多个主谓共现矩阵L1,每个主谓共现矩阵L1对应不同的主语类型;

8)从多个主谓共现矩阵L1中筛选出满足第一组合条件的目标主谓共现矩阵;

9)将目标主谓共现矩阵对应的主语类型和谓语类型进行组合,得到主谓组合;

10)建立目标谓语和目标宾语的共现统计矩阵,得到谓宾共现矩阵;

11)对目标谓语和目标宾语进行共现统计,得到多个谓宾共现矩阵L2,每个谓宾共现矩阵L2对应不同的宾语类型;

12)从多个谓宾共现矩阵L2中筛选出满足第二组合条件的目标谓宾共现矩阵;

13)将目标谓宾共现矩阵对应的宾语类型和谓语类型进行组合,得到谓宾组合;

14)将主谓组合和谓宾组合进行交叉组合,得到知识图谱本体。

图5示出了本申请实施例提供的知识图谱本体构建装置的结构框图。如图5所示,本实施例提供的知识图谱本体构建装置,可以包括:

获取模块510,用于获取目标领域的语料;

抽取模块520,用于将所述目标领域的语料输入目标实体抽取模型,输出目标主谓宾实体,其中,所述实体抽取模型是基于通用领域的三元组语料训练得到,所述通用领域是指与目标领域不同的领域;

构建模块530,用于根据所述目标主谓宾实体构建知识图谱本体。

在一个实施例中,知识图谱本体构建装置还包括模型训练模块540,用于将主语、谓语和宾语作为实体,对所述通用领域的语料的实体类型进行标注,得到主谓宾类型标注语料;对所述主谓宾类型标注语料进行序列标注,得到序列标注语料;基于所述序列标注语料,对预先建立的实体抽取模型进行训练,得到所述目标实体抽取模型。

在一个实施例中,所述目标实体抽取模型为基于转换器的双向编码表征、双向长短期记忆网络和条件随机场算法的模型。

在一个实施例中,所述目标主谓宾实体包括目标主语、目标谓语和目标宾语,构建模块530具体用于对所述目标主语和所述目标谓语进行统计分割,得到主谓组合;对所述目标谓语和所述目标宾语进行统计分割,得到谓宾组合;将所述主谓组合和所述谓宾组合进行交叉组合,得到所述知识图谱本体。

在一个实施例中,构建模块530具体用于对所述目标主语和所述目标谓语进行共现统计,得到多个主谓共现矩阵,每个所述主谓共现矩阵对应不同的主语类型;从所述多个主谓共现矩阵中筛选出满足第一组合条件的目标主谓共现矩阵;将所述目标主谓共现矩阵对应的主语类型和谓语类型进行组合,得到所述主谓组合。

在一个实施例中,构建模块530具体用于建立多个二维统计矩阵,每个所述二维统计矩阵包括主语列和谓语列,其中,不同的二维统计矩阵的主语列对应的主语类型不同;确定每个所述目标主语的类型,并向与所述目标主语的类型一致的主语列计数加1;确定每个所述目标谓语的类型,并向所述谓语列计数加1,得到所述多个主谓共现矩阵。

在一个实施例中,构建模块530还用于根据所述知识图谱本体构建所述目标领域的知识图谱。

本实施例提供的知识图谱本体构建装置,用于执行本申请方法实施例提供的知识图谱本体构建方法,技术原理和技术效果相似,具体可参见方法实施例部分,此处不再赘述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本申请实施例还提供了一种终端设备,例如图1所示,该终端设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述任意方法实施例中的步骤。

本领域技术人员可以理解,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号