首页> 中国专利> 开放式实体关系的抽取方法、装置、设备及存储介质

开放式实体关系的抽取方法、装置、设备及存储介质

摘要

本发明涉及人工智能技术领域,提供一种开放式实体关系的抽取方法、装置、设备及存储介质,用于解决现有的开放关系抽取难以处理不定类型关系的问题。开放式实体关系的抽取方法包括:预处理待处理的关系分类数据集的实体关系、字段长度和关系三元组得到待处理数据集;通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集对初始无监督生成模型进行训练和优化,得到目标无监督生成模型;对待处理文本进行分词和词配对处理,得到预处理文本;通过目标无监督生成模型,对预处理文本进行隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。此外,本发明还涉及区块链技术,待处理的关系分类数据集可存储于区块链中。

著录项

  • 公开/公告号CN113011189A

    专利类型发明专利

  • 公开/公告日2021-06-22

    原文格式PDF

  • 申请/专利权人 深圳壹账通智能科技有限公司;

    申请/专利号CN202110322883.8

  • 发明设计人 朱昱锦;

    申请日2021-03-26

  • 分类号G06F40/295(20200101);G06F40/247(20200101);G06F40/242(20200101);G06N3/08(20060101);

  • 代理机构11321 北京市京大律师事务所;

  • 代理人姚维

  • 地址 518052 广东省深圳市前海深港合作区前湾一路1号A栋201室

  • 入库时间 2023-06-19 11:32:36

说明书

技术领域

本发明涉及人工智能的神经网络领域,尤其涉及一种开放式实体关系的抽取方法、装置、设备及存储介质。

背景技术

实体关系抽取技术为通过输入一段上下文文本及两个实体,输出这两个实体在这段上下文中的关系类型,被广泛运用在信息提取、图谱构建和关联发现等领域。但传统关系抽取技术因为关系类型固定、数据难以标注而难以投入实际应用,开放关系抽取技术由于能从输入的一段文本中自动输出所有可能的关系三元组而受到重视。

目前,传统开放关系抽取方案一般采用规则模板的方式,但是规则模板的方式存在开放复杂、对专家知识依赖高、难以迁移和匹配死板的问题;为了解决规则模板的方式所存在的问题,提出了按照语义角色标注的方式,但是该方式存在现成数据集少、标注成本高和难以处理重叠关系的问题;为了解决无法处理重叠关系的问题,提出了首先从句子里提取头实体,然后根据头实体与神经网络隐藏层的输出,联合提取尾实体并判断关系类型的方式,但是,该方式存在须要计算一个行列数均为输入句长度的大矩阵以解决开发关系抽取的问题,因而导致了现有的开放关系抽取难以处理不定类型关系。

发明内容

本发明提供一种开放式实体关系的抽取方法、装置、设备及存储介质,用于解决现有的开放关系抽取难以处理不定类型关系的问题。

本发明第一方面提供了一种开放式实体关系的抽取方法,包括:

获取待处理的关系分类数据集,对所述待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;

通过预先训练好的主干模型构建初始无监督生成模型,并通过所述待处理数据集,对所述初始无监督生成模型进行训练和优化,得到目标无监督生成模型;

获取待处理文本,并对所述待处理文本进行分词和词配对处理,得到预处理文本;

通过所述目标无监督生成模型,对所述预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。

可选的,在本发明第一方面的第一种实现方式中,所述获取待处理的关系分类数据集,对所述待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集,包括:

创建同义词词典,并获取待处理的关系分类数据集,以及所述同义词词典中所述待处理的关系分类数据集对应的目标同义词;

通过所述目标同义词,对所述待处理的关系分类数据集进行同义词替换,得到增强数据集;

按照预设实体字段长度和预设句长度,对所述增强数据集进行过滤,得到过滤数据集;

获取所述过滤数据集的关系三元组集,通过预置的正则表达式,对所述关系三元组集进行对齐处理和去重处理,得到待处理数据集。

可选的,在本发明第一方面的第二种实现方式中,所述创建同义词词典,并获取待处理的关系分类数据集,以及所述同义词词典中所述待处理的关系分类数据集对应的目标同义词,包括:

获取经过去重融合处理的目标字词数据,根据配置的同义词定义信息,对所述目标字词数据进行字符串生成,得到同义词词典;

获取待处理的关系分类数据集,以及所述待处理的关系分类数据集的实体和实体关系;

对所述待处理的关系分类数据集进行词性标注,并从所述实体和所述实体关系中随机选取目标实体和目标实体关系;

根据所述目标实体和所述目标实体关系遍历所述同义词词典,得到对应的目标同义词。

可选的,在本发明第一方面的第三种实现方式中,所述按照预设实体字段长度和预设句长度,对所述增强数据集进行过滤,得到过滤数据集,包括:

基于预设实体字段长度,对所述增强数据集进行分类,得到第一数据集和第二数据集,所述第一数据集用于指示符合所述预设实体字段长度,所述第二数据集用于指示不符合所述预设实体字段长度;

根据预设句长度,对所述第一数据集和所述第二数据集进行分类,得到目标数据集和非目标数据集,所述目标数据集用于指示符合所述预设句长度,所述非目标数据集用于指示不符合所述预设句长度;

对所述非目标数据集中的语句进行空缺符填充和遮罩处理,得到填充数据;

将所述填充数据和所述目标数据集确定为过滤数据集。

可选的,在本发明第一方面的第四种实现方式中,所述获取所述过滤数据集的关系三元组集,通过预置的正则表达式,对所述关系三元组集进行对齐处理和去重处理,得到待处理数据集,包括:

提取所述过滤数据集中的初始关系三元组集,以及所述初始关系三元组集对应的初始关系短语集;

根据所述初始关系短语集,对所述初始关系三元组集进行对齐分析,得到多个待处理关系三元组以及多个目标关系三元组,所述多个待处理关系三元组用于指示多个待处理关系三元组为同一个三元组,所述多个目标关系三元组用于指示多个目标关系三元组不为同一个三元组;

将所述多个待处理关系三元组进行融合,得到多个融合关系三元组,并将所述多个融合关系三元组和所述多个目标关系三元组确定为待处理数据集。

可选的,在本发明第一方面的第五种实现方式中,所述通过所述目标无监督生成模型,对所述预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息,包括:

将所述预处理文本的数据格式转换为所述目标无监督生成模型的编码输入格式,得到转换文本,所述目标无监督生成模型包括编码器和解码器;

通过所述编码器对所述转换文本进行数据拟合,得到隐层向量;

通过所述解码器,基于预置的贪心算法和所述隐层向量,从预置的词典中获取对应的目标字词;

根据所述目标字词生成文本序列得到目标实体关系信息。

可选的,在本发明第一方面的第六种实现方式中,所述通过预先训练好的主干模型构建初始无监督生成模型,并通过所述待处理数据集,对所述初始无监督生成模型进行训练和优化,得到目标无监督生成模型,包括:

通过预先训练好的主干模型构建初始无监督生成模型,并将所述待处理数据集划分为训练数据集、验证数据集和测试数据集;

通过所述训练数据集,对所述初始无监督生成模型进行训练,得到候选无监督生成模型;

通过所述候选无监督生成模型,对所述验证数据集进行隐层向量转换、实体关系预测和文本序列生成,得到验证结果;

通过预置的损失函数计算所述验证结果的验证损失值,根据所述验证损失值,对所述候选无监督生成模型进行优化,得到优化无监督生成模型;

通过所述测试数据集,对所述优化无监督生成模型进行测试,得到测试结果,并计算所述测试结果的测试损失值,根据所述测试损失值确定目标无监督生成模型。

本发明第二方面提供了一种开放式实体关系的抽取装置,包括:

第一预处理模块,用于获取待处理的关系分类数据集,对所述待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;

训练优化模块,用于通过预先训练好的主干模型构建初始无监督生成模型,并通过所述待处理数据集,对所述初始无监督生成模型进行训练和优化,得到目标无监督生成模型;

第二预处理模块,用于获取待处理文本,并对所述待处理文本进行分词和词配对处理,得到预处理文本;

抽取模块,用于通过所述目标无监督生成模型,对所述预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。

可选的,在本发明第二方面的第一种实现方式中,所述第一预处理模块包括:

创建获取单元,用于创建同义词词典,并获取待处理的关系分类数据集,以及所述同义词词典中所述待处理的关系分类数据集对应的目标同义词;

替换单元,用于通过所述目标同义词,对所述待处理的关系分类数据集进行同义词替换,得到增强数据集;

过滤单元,用于按照预设实体字段长度和预设句长度,对所述增强数据集进行过滤,得到过滤数据集;

处理单元,用于获取所述过滤数据集的关系三元组集,通过预置的正则表达式,对所述关系三元组集进行对齐处理和去重处理,得到待处理数据集。

可选的,在本发明第二方面的第二种实现方式中,所述创建获取单元具体用于:

获取经过去重融合处理的目标字词数据,根据配置的同义词定义信息,对所述目标字词数据进行字符串生成,得到同义词词典;

获取待处理的关系分类数据集,以及所述待处理的关系分类数据集的实体和实体关系;

对所述待处理的关系分类数据集进行词性标注,并从所述实体和所述实体关系中随机选取目标实体和目标实体关系;

根据所述目标实体和所述目标实体关系遍历所述同义词词典,得到对应的目标同义词。

可选的,在本发明第二方面的第三种实现方式中,所述过滤单元具体用于:

基于预设实体字段长度,对所述增强数据集进行分类,得到第一数据集和第二数据集,所述第一数据集用于指示符合所述预设实体字段长度,所述第二数据集用于指示不符合所述预设实体字段长度;

根据预设句长度,对所述第一数据集和所述第二数据集进行分类,得到目标数据集和非目标数据集,所述目标数据集用于指示符合所述预设句长度,所述非目标数据集用于指示不符合所述预设句长度;

对所述非目标数据集中的语句进行空缺符填充和遮罩处理,得到填充数据;

将所述填充数据和所述目标数据集确定为过滤数据集。

可选的,在本发明第二方面的第四种实现方式中,所述处理单元具体用于:

提取所述过滤数据集中的初始关系三元组集,以及所述初始关系三元组集对应的初始关系短语集;

根据所述初始关系短语集,对所述初始关系三元组集进行对齐分析,得到多个待处理关系三元组以及多个目标关系三元组,所述多个待处理关系三元组用于指示多个待处理关系三元组为同一个三元组,所述多个目标关系三元组用于指示多个目标关系三元组不为同一个三元组;

将所述多个待处理关系三元组进行融合,得到多个融合关系三元组,并将所述多个融合关系三元组和所述多个目标关系三元组确定为待处理数据集。

可选的,在本发明第二方面的第五种实现方式中,所述抽取模块具体用于:

将所述预处理文本的数据格式转换为所述目标无监督生成模型的编码输入格式,得到转换文本,所述目标无监督生成模型包括编码器和解码器;

通过所述编码器对所述转换文本进行数据拟合,得到隐层向量;

通过所述解码器,基于预置的贪心算法和所述隐层向量,从预置的词典中获取对应的目标字词;

根据所述目标字词生成文本序列得到目标实体关系信息。

可选的,在本发明第二方面的第六种实现方式中,所述训练优化模块具体用于:

通过预先训练好的主干模型构建初始无监督生成模型,并将所述待处理数据集划分为训练数据集、验证数据集和测试数据集;

通过所述训练数据集,对所述初始无监督生成模型进行训练,得到候选无监督生成模型;

通过所述候选无监督生成模型,对所述验证数据集进行隐层向量转换、实体关系预测和文本序列生成,得到验证结果;

通过预置的损失函数计算所述验证结果的验证损失值,根据所述验证损失值,对所述候选无监督生成模型进行优化,得到优化无监督生成模型;

通过所述测试数据集,对所述优化无监督生成模型进行测试,得到测试结果,并计算所述测试结果的测试损失值,根据所述测试损失值确定目标无监督生成模型。

本发明第三方面提供了一种开放式实体关系的抽取设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述开放式实体关系的抽取设备执行上述的开放式实体关系的抽取方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的开放式实体关系的抽取方法。

本发明提供的技术方案中,获取待处理的关系分类数据集,对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型;获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本;通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。

附图说明

图1为本发明实施例中开放式实体关系的抽取方法的一个实施例示意图;

图2为本发明实施例中开放式实体关系的抽取方法的另一个实施例示意图;

图3为本发明实施例中开放式实体关系的抽取装置的一个实施例示意图;

图4为本发明实施例中开放式实体关系的抽取装置的另一个实施例示意图;

图5为本发明实施例中开放式实体关系的抽取设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种开放式实体关系的抽取方法、装置、设备及存储介质,解决了现有的开放关系抽取难以处理不定类型关系的问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中开放式实体关系的抽取方法的一个实施例包括:

101、获取待处理的关系分类数据集,对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集。

可以理解的是,本发明的执行主体可以为开放式实体关系的抽取装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

其中,待处理的关系分类数据集为开源的,待处理的关系分类数据集的数量包括一个或多个,例如:待处理的关系分类数据集包括数据集SemEval-2010 Task8、数据集ACE2003-2004、数据集TACRED、数据集FewRel和百度信息抽取集DuIE等,待处理的关系分类数据集包括文本句子和关系三元组,待处理的关系分类数据集包括实体和实体之间的实体关系。

服务器从多个开源库中提取已经过实体标注以及实体关系抽取和标注的关系分类数据,从而得到初始关系分类数据集,对初始关系分类数据集进行数据清洗和数据属性规约,得到待处理的关系分类数据集,提取待处理的关系分类数据集的实体和实体关系,对待处理的关系分类数据集中的实体和实体关系进行同义词/近义词增强处理,得到增强数据集,增强数据集包括多个三元组(头实体,关系和尾实体)和多个扩增三元组,扩增三元组包括由通过预置的同义词典随机替换关系三元组中的成分,而得到的上下文相同、关系类型相同和具体实体组合不同的新三元组,按照预设的字段长度对增强数据集中文本句子的句子长度进行处理,得到处理数据集,将处理数据集中的多个三元组和多个扩增三元组划分为N个样本,从而得到样本数据,从样本数据中选取预置数量的数据,得到待处理数据集。

102、通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型。

其中,预先训练好的主干模型包括统一的语言模型(unified language model,UniLM)、生成式的预训练(generative pre-training,GPT)模型、基于转换器transformer的大型语言模型GPT-2或预训练生成式摘要模型PEGASUS等,本实施例中预先训练好的主干模型优选为统一的语言模型UniLM,UniLM为基于预训练模型BERT使用三种不同的遮罩(mask)机制—双向语言模型(bidirected language model,BiLM)、单向语言模型(left-to-right language model,LRLM)和序列到序列语言模型(sequence to sequencelanguage model,S2S LM)训练而得的预训练生成式语言模型。通过预先训练好的主干模型构建而成的初始无监督生成模型包括编码器和解码器。服务器按照预设的划分比例,基于预置的随机采样算法或分层采样算法,对待处理数据集进行分割,得到训练数据集、验证数据集和测试数据集,其中,预设的划分比例可为8:1:1。

103、获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本。

服务器通过接收预置的显示界面或终端发送的待处理文本,通过预置的开源库Jieba,对待处理文本进行分词处理,得到分词列表,按分词列表的顺序从分词列表中将词两两取出,以实现词配对处理,得到预处理文本,其中,词配对处理不会明显影响目标无监督生成模型效率,例如:如果有N个词,那么需要配对N(N-1)/2次,平均一个句子里N=5,要配对10次,模型做一次推断时间约为1s,10次推断是10s,这个量级不会明显影响模型效率。

104、通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。

服务器基于目标无监督生成模型的输入格式,对预处理文本进行数据格式转换,得到转换文本,通过目标无监督生成模型中的编码器,对转换文本进行转换为隐层向量,通过目标无监督生成模型中的解码器,基于预置的贪心算法或集束搜索算法,根据隐层向量中的实体关系,匹配预置的词典中对应的目标字词,按照预设的序列顺序和目标字词,生成新的文本序列,从而得到目标实体关系信息,其中,预置的词典为一个由单个汉字、数字或字符组成的词典列表,该列表由通过基于大量语料,计算语料的词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF),将词频-逆文本频率指数TF-IDF与预测的频率值进行对比分析而得到。通过直接根据待处理文本和待处理文本中的两个实体,生成一个文本序列,该文本序列包括实体关系字段,由于该实体关系字段极大概率不存在待处理文本中,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。

本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。

请参阅图2,本发明实施例中开放式实体关系的抽取方法的另一个实施例包括:

201、创建同义词词典,并获取待处理的关系分类数据集,以及同义词词典中待处理的关系分类数据集对应的目标同义词。

具体地,服务器获取经过去重融合处理的目标字词数据,根据配置的同义词定义信息,对目标字词数据进行字符串生成,得到同义词词典;获取待处理的关系分类数据集,以及待处理的关系分类数据集的实体和实体关系;对待处理的关系分类数据集进行词性标注,并从实体和实体关系中随机选取目标实体和目标实体关系;根据目标实体和目标实体关系遍历同义词词典,得到对应的目标同义词。

其中,配置的同义词定义信息可为同义词的映射类型和对应关系。服务器通过调用预置的下载接口或下载插件从github.com/fighting41lov/funNLP,github.com/liuhuanyong/ChineseSemanticKB和哈尔滨工业大学大词林的网页或词库中下载字词数据,对该字词数据进行数据预处理和去重融合处理,得到经过去重融合处理的目标字词数据,并按照由二元组(词,词)构成的列表的数据结构和目标字词数据,构建图谱,并按照json格式对图谱进行存储得到同义词词典,其中,在图谱中,相近意思的字词都会连接起来。

服务器获取同义词词典中同义词的词性,即同义词词性,并提取关系分类数据集中的实体关系词性,该实体关系字段词性包括实体的词性,以及与实体关系相关的字段的词性,根据该同义词词性和该实体关系词性,对关系分类数据集进行词性标注,以实现词性的歧义消除,例如:“游泳”一词,在语境中可以作动词表示一个动作(此时同义词是“游动”、“泅水”),也可以作名词表示一项活动/项目(此时同义词是“蛙泳”、“自由泳”等)。

服务器通过预置的随机选择算法,从实体和实体关系中随机选取预设的选取数量的实体和实体关系,得到目标实体和目标实体关系,根据目标实体和目标实体关系,对同义词词典进行匹配,得到对应的目标同义词,该目标同义词的数量包括一个或一个以上。

202、通过目标同义词,对待处理的关系分类数据集进行同义词替换,得到增强数据集。

服务器将待处理的关系分类数据集中与目标同义词对应的词字符串修改为目标同义词对应的字符串,从而得到增强数据集。

203、按照预设实体字段长度和预设句长度,对增强数据集进行过滤,得到过滤数据集。

具体地,服务器基于预设实体字段长度,对增强数据集进行分类,得到第一数据集和第二数据集,第一数据集用于指示符合预设实体字段长度,第二数据集用于指示不符合预设实体字段长度;根据预设句长度,对第一数据集和第二数据集进行分类,得到目标数据集和非目标数据集,目标数据集用于指示符合预设句长度,非目标数据集用于指示不符合预设句长度;对非目标数据集中的语句进行空缺符填充和遮罩处理,得到填充数据;将填充数据和目标数据集确定为过滤数据集。

服务器获取增强数据集的初始实体字段长度,以及语句的初始句长度,服务器通过if-else判断脚本,判断初始实体字段长度是否大于预设实体字段长度,若否,则将初始实体字段长度对应的字段确定为实体,得到符合预设实体字段长度的第一数据集,若是,则不将初始实体字段长度对应的字段确定为实体,得到不符合预设实体字段长度的第二数据集,预设实体字段长度根据统计结果取值,中文情形一般取k=7;服务器也可通过预置的函数(如:python语言中的filter函数),基于预设实体字段长度和初始实体字段长度,对增强数据集中各语句的字段进行过滤,例如:增强数据集中各语句的字段为一个列表lst,通过lst_new=list(filter(x:len(x)>7,lst)),实现基于预设实体字段长度和初始实体字段长度,对增强数据集中各语句的字段进行的过滤。

服务器判断初始句长度是否为预设句长度,该预设句长度可为文本句子的字符数量,例如:预设句长度为128个字符,一个文本句子包括128个字符,若是,则得到符合预设句长度的目标数据集,若否,则得到不符合预设句长度的非目标数据集,将非目标数据集中初始句长度大于预设句长度的数据的字符进行截断,得到截断数据,并对非目标数据集中初始句长度小于预设句长度的数据进行空缺符填充,并对填充的空缺符进行遮罩mask处理,得到填充数据,从而得到过滤数据集。

204、获取过滤数据集的关系三元组集,通过预置的正则表达式,对关系三元组集进行对齐处理和去重处理,得到待处理数据集。

具体地,服务器提取过滤数据集中的初始关系三元组集,以及初始关系三元组集对应的初始关系短语集;根据初始关系短语集,对初始关系三元组集进行对齐分析,得到多个待处理关系三元组以及多个目标关系三元组,多个待处理关系三元组用于指示多个待处理关系三元组为同一个三元组,多个目标关系三元组用于指示多个目标关系三元组不为同一个三元组;将多个待处理关系三元组进行融合,得到多个融合关系三元组,并将多个融合关系三元组和多个目标关系三元组确定为待处理数据集。

服务器提取过滤数据集中的初始关系三元组集,以及初始关系三元组集对应的初始关系短语集,通过预置的正则表达式,判断初始关系短语集中关系短语之间是否一致,若是,则判定对应的关系短语为目标关系短语,若否,则继续进行判断;

或者,服务器提取过滤数据集中各文本句子的初始关系三元组(头实体,关系,尾实体),从而得到初始关系三元组集,并提取各初始关系三元组对应的三个初始关系短语,从而得到初始关系短语集。服务器判断各初始关系三元组之间的三个初始关系短语是否均相同,若各初始关系三元组之间的三个初始关系短语均相同,则判断各初始关系三元组之间的头实体和尾实体是否相同,若是,则判定对应的两个初始关系三元组为同一个三元组,从而得到多个待处理关系三元组,若否,则判定对应的两个初始关系三元组不为同一个三元组,从而得到多个目标关系三元组;若各初始关系三元组之间的三个初始关系短语不相同,则将对应的初始关系三元组确定为目标关系三元组,从而得到多个目标关系三元组,并将多个待处理关系三元组进行融合,从而得到包括多个融合关系三元组和多个目标关系三元组的待处理数据集,其中,目标关系三元组集包括未经过同义词词典中的同义词替换的关系三元组和经过同义词词典中的同义词替换的关系三元组。

205、通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型。

具体地,服务器通过预先训练好的主干模型构建初始无监督生成模型,并将待处理数据集划分为训练数据集、验证数据集和测试数据集;通过训练数据集,对初始无监督生成模型进行训练,得到候选无监督生成模型;通过候选无监督生成模型,对验证数据集进行隐层向量转换、实体关系预测和文本序列生成,得到验证结果;通过预置的损失函数计算验证结果的验证损失值,根据验证损失值,对候选无监督生成模型进行优化,得到优化无监督生成模型;通过测试数据集,对优化无监督生成模型进行测试,得到测试结果,并计算测试结果的测试损失值,根据测试损失值确定目标无监督生成模型。

服务器将训练数据集的数据格式转换为初始无监督生成模型的输入格式,得到格式转换后的训练数据集,将格式转换后的训练数据集输入初始无监督生成模型中,通过初始无监督生成模型中的编码器和解码器,对格式转换后的训练数据集依次进行编码处理和解码处理,以使得初始无监督生成模型的参数适用训练数据集,实现了对初始无监督生成模型的模型微调,从而得到候选无监督生成模型。

服务器通过候选无监督生成模型中的编码器,将验证数据集转换为隐层向量集,并通过预置的字典,对隐层向量集进行实体关系预测和文本序列生成,得到验证结果。

服务器通过预置的损失函数,该损失函数包括但不限于交叉熵损失函数,通过该交叉熵损失函数,计算验证数据集与验证结果之间的交叉熵,即验证损失值,根据该验证损失值,对候选无监督生成模型的超参数和/或模型网络结构进行迭代调整,直至损失函数收敛,从而得到优化无监督生成模型,以提高优化无监督生成模型的准确性。

服务器通过优化无监督生成模型,对测试数据集进行隐层向量转换、实体关系预测和文本序列生成,得到测试结果,并计算测试结果的测试损失值,判断该测试损失值是否大于预设阈值,若是,则对优化无监督生成模型进行迭代优化,得到目标无监督生成模型,若否,则将优化无监督生成模型确定为目标无监督生成模型。

通过直接根据待处理的关系分类数据集中的文本句子和两个实体,生成一个文本序列,该文本序列包括实体关系字段,其中,该实体关系字段极大概率不存在输入的文本(即待处理的关系分类数据集中的文本句子)中,解决了现有的开放关系抽取难以处理不定类型关系的问题。

206、获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本。

服务器通过接收预置的显示界面或终端发送的待处理文本,通过预置的开源库Jieba,对待处理文本进行分词处理,得到分词列表,按分词列表的顺序从分词列表中将词两两取出,以实现词配对处理,得到预处理文本,其中,词配对处理不会明显影响目标无监督生成模型效率,例如:如果有N个词,那么需要配对N(N-1)/2次,平均一个句子里N=5,要配对10次,模型做一次推断时间约为1s,10次推断是10s,这个量级不会明显影响模型效率。

207、通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。

具体地,服务器将预处理文本的数据格式转换为目标无监督生成模型的编码输入格式,得到转换文本,目标无监督生成模型包括编码器和解码器;通过编码器对转换文本进行数据拟合,得到隐层向量;通过解码器,基于预置的贪心算法和隐层向量,从预置的词典中获取对应的目标字词;根据目标字词生成文本序列得到目标实体关系信息。

例如,服务器将预处理文本的数据格式转换为目标无监督生成模型的编码输入格式:[CLS]XXXXXXXXX

XXXXXX[SEP]YYY[END],其中[CLS]为分类位,无实际意义;[SEP]为划分位,[SEP]前的内容为推理时的输入内容,[SEP]后的为生成内容;[END]为终止位,表示关系生成结束;围住的部分即实体在句中的提及mention;[SEP]和[END]围住的内容为生成的实体关系;通过目标无监督生成模型中的编码器的嵌入层和多层神经网络,对转换文本进行数据拟合,即将转换文本转换为隐层向量,得到隐层向量,隐层向量包括多个词向量,服务器通过目标无监督生成模型中的解码器,计算隐层向量中每两个词向量之间的联合概率,并通过预置的贪心算法根据该联合概率,从预置的词典里中选择对应的目标字词,将目标字词按照词向量的序列顺序生成文本序列,从而得到目标实体关系信息,即从主干模型附带的预置的词典表中选择最符合(即目标无监督生成模型预测的最大概率值(联合概率的最大值)对应的位置)的字符接在待处理文本后,以实现对待处理文本的实体关系的抽取、预测和重新生成序列。

本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。

上面对本发明实施例中开放式实体关系的抽取方法进行了描述,下面对本发明实施例中开放式实体关系的抽取装置进行描述,请参阅图3,本发明实施例中开放式实体关系的抽取装置一个实施例包括:

第一预处理模块301,用于获取待处理的关系分类数据集,对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;

训练优化模块302,用于通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型;

第二预处理模块303,用于获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本;

抽取模块304,用于通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。

上述开放式实体关系的抽取装置中各个模块的功能实现与上述开放式实体关系的抽取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。

本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。

请参阅图4,本发明实施例中开放式实体关系的抽取装置的另一个实施例包括:

第一预处理模块301,用于获取待处理的关系分类数据集,对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;

其中,第一预处理模块301具体包括:

创建获取单元3011,用于创建同义词词典,并获取待处理的关系分类数据集,以及同义词词典中待处理的关系分类数据集对应的目标同义词;

替换单元3012,用于通过目标同义词,对待处理的关系分类数据集进行同义词替换,得到增强数据集;

过滤单元3013,用于按照预设实体字段长度和预设句长度,对增强数据集进行过滤,得到过滤数据集;

处理单元3014,用于获取过滤数据集的关系三元组集,通过预置的正则表达式,对关系三元组集进行对齐处理和去重处理,得到待处理数据集;

训练优化模块302,用于通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型;

第二预处理模块303,用于获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本;

抽取模块304,用于通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。

可选的,创建获取单元3011还可以具体用于:

获取经过去重融合处理的目标字词数据,根据配置的同义词定义信息,对目标字词数据进行字符串生成,得到同义词词典;

获取待处理的关系分类数据集,以及待处理的关系分类数据集的实体和实体关系;

对待处理的关系分类数据集进行词性标注,并从实体和实体关系中随机选取目标实体和目标实体关系;

根据目标实体和目标实体关系遍历同义词词典,得到对应的目标同义词。

可选的,过滤单元3013还可以具体用于:

基于预设实体字段长度,对增强数据集进行分类,得到第一数据集和第二数据集,第一数据集用于指示符合预设实体字段长度,第二数据集用于指示不符合预设实体字段长度;

根据预设句长度,对第一数据集和第二数据集进行分类,得到目标数据集和非目标数据集,目标数据集用于指示符合预设句长度,非目标数据集用于指示不符合预设句长度;

对非目标数据集中的语句进行空缺符填充和遮罩处理,得到填充数据;

将填充数据和目标数据集确定为过滤数据集。

可选的,处理单元3014还可以具体用于:

提取过滤数据集中的初始关系三元组集,以及初始关系三元组集对应的初始关系短语集;

根据初始关系短语集,对初始关系三元组集进行对齐分析,得到多个待处理关系三元组以及多个目标关系三元组,多个待处理关系三元组用于指示多个待处理关系三元组为同一个三元组,多个目标关系三元组用于指示多个目标关系三元组不为同一个三元组;

将多个待处理关系三元组进行融合,得到多个融合关系三元组,并将多个融合关系三元组和多个目标关系三元组确定为待处理数据集。

可选的,抽取模块304还可以具体用于:

将预处理文本的数据格式转换为目标无监督生成模型的编码输入格式,得到转换文本,目标无监督生成模型包括编码器和解码器;

通过编码器对转换文本进行数据拟合,得到隐层向量;

通过解码器,基于预置的贪心算法和隐层向量,从预置的词典中获取对应的目标字词;

根据目标字词生成文本序列得到目标实体关系信息。

可选的,训练优化模块302还可以具体用于:

通过预先训练好的主干模型构建初始无监督生成模型,并将待处理数据集划分为训练数据集、验证数据集和测试数据集;

通过训练数据集,对初始无监督生成模型进行训练,得到候选无监督生成模型;

通过候选无监督生成模型,对验证数据集进行隐层向量转换、实体关系预测和文本序列生成,得到验证结果;

通过预置的损失函数计算验证结果的验证损失值,根据验证损失值,对候选无监督生成模型进行优化,得到优化无监督生成模型;

通过测试数据集,对优化无监督生成模型进行测试,得到测试结果,并计算测试结果的测试损失值,根据测试损失值确定目标无监督生成模型。

上述开放式实体关系的抽取装置中各模块和各单元的功能实现与上述开放式实体关系的抽取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。

本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。

上面图3和图4从模块化功能实体的角度对本发明实施例中的开放式实体关系的抽取装置进行详细描述,下面从硬件处理的角度对本发明实施例中开放式实体关系的抽取设备进行详细描述。

图5是本发明实施例提供的一种开放式实体关系的抽取设备的结构示意图,该开放式实体关系的抽取设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对开放式实体关系的抽取设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在开放式实体关系的抽取设备500上执行存储介质530中的一系列指令操作。

开放式实体关系的抽取设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的开放式实体关系的抽取设备结构并不构成对开放式实体关系的抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行开放式实体关系的抽取方法的步骤。

进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory, ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号