首页> 中国专利> 知识库的标问标答的治理方法、装置、设备及存储介质

知识库的标问标答的治理方法、装置、设备及存储介质

摘要

本申请涉及人工智能技术领域,揭示了一种知识库的标问标答的治理方法、装置、设备及存储介质,其中方法包括:将多条待治理的标问标答对进行实体识别、实体数据的去重处理和实体数据对齐处理得到实体对齐后的标问标答对集;根据实体对齐后的标问标答对集进行相似性判断得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将不相似的标问标答对集更新到目标知识库中;对疑似相似的标问标答对集和不完全相似的标问标答对集进行属性去重处理和属性值去重处理得到去重后的标问标答对集,将去重后的标问标答对集更新到目标知识库中。提高了知识库的质量,不需要持续人工参与治理过程,提高了治理效率。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-29

    授权

    发明专利权授予

说明书

技术领域

本申请涉及到人工智能技术领域,特别是涉及到一种知识库的标问标答的治理方法、装置、设备及存储介质。

背景技术

知识库中标准问题和标准答案一般都是成对存在,一般称之为标问标答对。标问标答对是知识库知识体系的核心结构,标准问题的数量直接影响了相似问题的数量,继而影响问答机器人的能力好坏。现有技术的知识库的标问标答存在以下问题:(1)标准问题之间的知识重复;(2)一个标准问题存在多个意图或没有意图;(3)标准问题的意图个数和标准答案的值个数不相等,造成答案不完全或答案过多。

发明内容

本申请的主要目的为提供一种知识库的标问标答的治理方法、装置、设备及存储介质,旨在解决现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题。

为了实现上述发明目的,本申请提出一种知识库的标问标答的治理方法,所述方法包括:

获取多条待治理的标问标答对,所述待治理的标问标答对包括:待治理的标问文本数据和待治理的标答文本数据;

将所述多条待治理的标问标答对输入实体识别模型进行实体识别,得到所述多条待治理的标问标答对对应的待去重的实体数据集,所述实体识别模型是基于预训练模型bert_this和CRF网络训练得到的模型;

对所述待去重的实体数据集进行实体数据的去重处理,得到所述多条待治理的标问标答对对应的去重后的实体数据集;

根据所述去重后的实体数据集和所述多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集;

根据所述实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将所述不相似的标问标答对集更新到目标知识库中;

对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将所述去重后的标问标答对集更新到所述目标知识库中。

进一步的,所述将所述多条待治理的标问标答对输入实体识别模型进行实体识别,得到所述多条待治理的标问标答对对应的待去重的实体数据集的步骤之前,还包括:

获取多个训练样本,所述训练样本包括:待训练文本样本数据、文本样本标定数据;

将所述多个训练样本按预设划分规则进行划分,得到训练集和验证集;

采用所述训练集对待训练的第一模型进行训练,将训练结束的所述待训练的第一模型确定为待验证的第一模型,所述待训练的第一模型是基于所述预训练模型bert_this和所述CRF网络得到的模型;

采用所述验证集对所述待验证的第一模型进行验证,当验证成功时确定所述待验证的第一模型为所述实体识别模型。

进一步的,所述根据所述去重后的实体数据集和所述多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集的步骤,包括:

采用最小编辑距离计算方法对所述去重后的实体数据集中的所有实体数据进行两两相似度计算,得到所述多条待治理的标问标答对对应的实体相似度矩阵;

按列分别从所述多条待治理的标问标答对对应的所述实体相似度矩阵中提取出实体相似度,得到多个待优化的实体相似度集;

获取第一相似度阈值,分别从每个所述待优化的实体相似度集中获取大于所述第一相似度阈值的实体相似度,得到所述多个待优化的实体相似度集各自对应的待对齐的实体相似度集;

分别根据每个所述待优化的实体相似度集对应的所述待对齐的实体相似度集和所述去重后的实体数据集,得到多个所述待对齐的实体相似度集各自对应的待筛选的实体数据集;

分别对每个所述待对齐的实体相似度集对应的所述待筛选的实体数据集进行字符最多的实体数据获取,得到多个所述待对齐的实体相似度集各自对应的最优实体数据;

采用所述每个所述待对齐的实体相似度集对应的所述最优实体数据对所述多条待治理的标问标答对进行替换,得到所述实体对齐后的标问标答对集。

进一步的,所述根据所述实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集的步骤,包括:

采用文本类别和实体数据对所述实体对齐后的标问标答对集进行划分,得到多个标问文本数据同实体子集和多个标答文本数据同实体子集;

采用余弦相似度计算方法分别对每个所述标问文本数据同实体子集中的实体对齐后的标问文本数据进行两两相似度计算,得到所述多个标问文本数据同实体子集各自对应的标问相似度矩阵;

采用余弦相似度计算方法分别对每个所述标答文本数据同实体子集中的实体对齐后的标答文本数据进行两两相似度计算,得到所述多个标答文本数据同实体子集各自对应的标答相似度矩阵;

根据所述实体对齐后的标问标答对集、所述标问相似度矩阵、所述标答相似度矩阵进行相似性判断,得到所述疑似相似的标问标答对集、所述不完全相似的标问标答对集和所述不相似的标问标答对集。

进一步的,所述根据所述实体对齐后的标问标答对集、所述标问相似度矩阵、所述标答相似度矩阵进行相似性判断,得到所述疑似相似的标问标答对集、所述不完全相似的标问标答对集和所述不相似的标问标答对集的步骤,包括:

按列分别从所述标问相似度矩阵中提取出标问相似度,得到多个待优化的标问相似度集;

按列分别从所述标答相似度矩阵中提取出标答相似度,得到多个待优化的标答相似度集;

获取第二相似度阈值;

分别从所述多个待优化的标问相似度集和所述多个待优化的标答相似度集中提取所述实体对齐后的标问标答对集的每个实体对齐后的标问标答对对应的待优化的标问相似度和待优化的标答相似度;

当存在所述实体对齐后的标问标答对集的所述实体对齐后的标问标答对对应的所述待优化的标问相似度和所述待优化的标答相似度均大于所述第二相似度阈值时,根据所述实体对齐后的标问标答对,确定所述疑似相似的标问标答对集;

当存在所述实体对齐后的标问标答对集的所述实体对齐后的标问标答对对应的所述待优化的标问相似度和所述待优化的标答相似度中任一个小于或等于所述第二相似度阈值时,根据所述实体对齐后的标问标答对,确定待区分的标问标答对集;

当存在根据所述待区分的标问标答对集中的所述实体对齐后的标问标答对的标问文本数据的属性数量和标答文本数据的属性数量均等于1时,根据所述实体对齐后的标问标答对,确定所述不相似的标问标答对集;

当存在根据所述待区分的标问标答对集中的所述实体对齐后的标问标答对的标问文本数据的属性数量和标答文本数据的属性数量的其中一个不等于1时,根据所述实体对齐后的标问标答对,确定所述不完全相似的标问标答对集。

进一步的,所述对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集的步骤,包括:

分别对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性数量等于0的所述标问文本数据的查找和删除,得到优化后的疑似相似的标问标答对集和优化后的不完全相似的标问标答对集;

依次分别从所述优化后的疑似相似的标问标答对集和所述优化后的不完全相似的标问标答对集中提取出标问标答对,得到待去重的标问标答对;

当所述待去重的标问标答对中的标问文本数据的属性数量等于1时,将所述待去重的标问标答对作为去重后的标问标答对;

当所述待去重的标问标答对中的标问文本数据的属性数量大于1,或者,所述待去重的标问标答对中的标答文本数据的属性值大于1时,将所述待去重的标问标答对进行属性分离和属性值分离,得到多个单属性单属性值标问文本数据和多个单属性单属性值标答文本数据;

采用保留最长字符原则对所述多个单属性单属性值标问文本数据和所述多个单属性单属性值标答文本数据进行相同属性去重处理和相同属性值去重处理,得到去重处理后的单属性单属性值标问文本数据集和去重处理后的单属性单属性值标答文本数据集;

将所述去重处理后的单属性单属性值标问文本数据集的每个单属性单属性值标问文本数据与所述去重处理后的单属性单属性值标答文本数据集中的每个所述单属性单属性值标问文本数据进行配对,得到多个所述去重后的标问标答对;

根据所有所述去重后的标问标答对,确定所述去重后的标问标答对集。

进一步的,所述分别对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性数量等于0的所述标问文本数据的查找和删除,得到优化后的疑似相似的标问标答对集和优化后的不完全相似的标问标答对集的步骤,包括:

从所述疑似相似的标问标答对集中的所有标问文本数据中找出属性数量等于0的所述标问文本数据,得到第一待删除的标问文本数据;

将所述第一待删除的标问文本数据从所述疑似相似的标问标答对集中进行删除,得到所述优化后的疑似相似的标问标答对集;

从所述不完全相似的标问标答对集中的所有标答文本数据中找出属性数量等于0的所述标答文本数据,得到第一待删除的标答文本数据;

将所述第一待删除的标答文本数据从所述不完全相似的标问标答对集中进行删除,得到所述优化后的不完全相似的标问标答对集。

本申请还提出了一种知识库的标问标答的治理装置,所述装置包括:

数据获取模块,用于获取多条待治理的标问标答对,所述待治理的标问标答对包括:待治理的标问文本数据和待治理的标答文本数据;

实体识别模块,用于将所述多条待治理的标问标答对输入实体识别模型进行实体识别,得到所述多条待治理的标问标答对对应的待去重的实体数据集,所述实体识别模型是基于预训练模型bert_this和CRF网络训练得到的模型;

实体数据的去重处理模块,用于对所述待去重的实体数据集进行实体数据的去重处理,得到所述多条待治理的标问标答对对应的去重后的实体数据集;

实体数据对齐处理模块,用于根据所述去重后的实体数据集和所述多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集;

相似性判断模块,用于根据所述实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将所述不相似的标问标答对集更新到目标知识库中;

属性去重处理和属性值去重处理模块,用于对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将所述去重后的标问标答对集更新到所述目标知识库中。

本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的知识库的标问标答的治理方法、装置、设备及存储介质,通过将多条待治理的标问标答对输入实体识别模型进行实体识别,得到多条待治理的标问标答对对应的待去重的实体数据集,对待去重的实体数据集进行实体数据的去重处理,得到多条待治理的标问标答对对应的去重后的实体数据集,根据去重后的实体数据集和多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集,根据实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将不相似的标问标答对集更新到目标知识库中,对疑似相似的标问标答对集和不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将去重后的标问标答对集更新到目标知识库中,从而使目标知识库中不会出现现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题,提高了知识库的质量,不需要持续人工参与治理过程,提高了治理效率。

附图说明

图1为本申请一实施例的知识库的标问标答的治理方法的流程示意图;

图2为本申请一实施例的知识库的标问标答的治理装置的结构示意框图;

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

为了解决现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题,本申请提出了一种知识库的标问标答的治理方法,所述方法应用于人工智能技术领域。所述知识库的标问标答的治理方法通过进行实体识别、实体数据的去重处理和实体数据对齐处理,然后进行相似文本数据判断,得到疑似相似、不完全相似、不相似的标问标答对,对疑似相似、不完全相似的标问标答对进行属性去重处理和属性值去重处理,将不相似的标问标答对、属性去重处理和属性值去重处理后的标问标答对更新到所述目标知识库中,从而使目标知识库中不会出现现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题,提高了知识库的质量,不需要持续人工参与治理过程,提高了治理效率。

参照图1,本申请实施例中提供一种知识库的标问标答的治理方法,所述方法包括:

S1:获取多条待治理的标问标答对,所述待治理的标问标答对包括:待治理的标问文本数据和待治理的标答文本数据;

S2:将所述多条待治理的标问标答对输入实体识别模型进行实体识别,得到所述多条待治理的标问标答对对应的待去重的实体数据集,所述实体识别模型是基于预训练模型bert_this和CRF网络训练得到的模型;

S3:对所述待去重的实体数据集进行实体数据的去重处理,得到所述多条待治理的标问标答对对应的去重后的实体数据集;

S4:根据所述去重后的实体数据集和所述多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集;

S5:根据所述实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将所述不相似的标问标答对集更新到目标知识库中;

S6:对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将所述去重后的标问标答对集更新到所述目标知识库中。

本实施例通过将多条待治理的标问标答对输入实体识别模型进行实体识别,得到多条待治理的标问标答对对应的待去重的实体数据集,对待去重的实体数据集进行实体数据的去重处理,得到多条待治理的标问标答对对应的去重后的实体数据集,根据去重后的实体数据集和多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集,根据实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将不相似的标问标答对集更新到目标知识库中,对疑似相似的标问标答对集和不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将去重后的标问标答对集更新到目标知识库中,从而使目标知识库中不会出现现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题,提高了知识库的质量,不需要持续人工参与治理过程,提高了治理效率。

对应S1,可以从数据库中获取多条待治理的标问标答对,也可以是用户输入的多条待治理的标问标答对,还可以是第三方应用系统发送的多条待治理的标问标答对。

待治理的标问标答对,也就是需要进行治理以避免标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的标问标答对。

待治理的标问文本数据,也就是需要进行治理以避免标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的标问文本数据。标问文本数据,是描述问题的文本数据。

待治理的标答文本数据,也就是需要进行治理以避免标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的标答文本数据。标答文本数据,是描述答案的文本数据。

同一个待治理的标问标答对中,待治理的标答文本数据是针对待治理的标问文本数据的答案的文本数据。

对应S2,将所述多条待治理的标问标答对的每条所述待治理的标问标答对的待治理的标问文本数据和待治理的标答文本数据输入实体识别模型进行实体识别,将实体识别模型输出的所有实体数据作为实体数据集。

预训练模型bert_this,是基于bert-base-chinese(中文bert预训练模型)网络训练得到的模型。基于bert-base-chinese网络训练得到的预训练模型bert_this的方法可以从现有技术中选择,在此不做赘述。

基于预训练模型bert_this和CRF(条件随机场)网络训练得到的所述实体识别模型的方法可以从现有技术中选择,在此不做赘述。

对应S3,对所述待去重的实体数据集中的所有实体数据进行去重处理,将去重处理后的所述待去重的实体数据集作为所述多条待治理的标问标答对对应的去重后的实体数据集。也就是说,在所述多条待治理的标问标答对对应的去重后的实体数据集中,每个实体数据具有唯一性。

实体数据,是指三元组中的实体(实体是对客观个体的抽象,一个人、一部电影、一句话都可以看作是一个实体)。

对应S4,根据所述去重后的实体数据集中各个实体数据之间的实体相似度,确定最优实体数据;采用最优实体数据对所述多条待治理的标问标答对进行替换,将完成替换的所述多条待治理的标问标答对作为所述实体对齐后的标问标答对集。

对应S5,根据所述实体对齐后的标问标答对集的标问文本数据的实体数据和标答文本数据的实体数据进行相似性判断,根据相似性判断结果将所述实体对齐后的标问标答对集划分为疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集。其中,不相似的标问标答对集已经不存在现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的问题,因此可以直接将不相似的标问标答对集更新到目标知识库中。目标知识库是治理之后新建的知识库,从而使目标知识库中的数据不存在现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的问题。

对应S6,对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集的标问文本数据和标答文本数据进行属性去重处理和属性值去重处理,根据属性去重处理和属性值去重处理后的所述疑似相似的标问标答对集和所述不完全相似的标问标答对集确定去重后的标问标答对集。其中,去重后的标问标答对集已经不存在现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的问题,因此可以直接将所述去重后的标问标答对集更新到目标知识库中。

可以理解的是,目标知识库初始状态为空,通过步骤S5和步骤S6向目标知识库添加标问标答对。

在一个实施例中,上述将所述多条待治理的标问标答对输入实体识别模型进行实体识别,得到所述多条待治理的标问标答对对应的待去重的实体数据集的步骤之前,还包括:

S021:获取多个训练样本,所述训练样本包括:待训练文本样本数据、文本样本标定数据;

S022:将所述多个训练样本按预设划分规则进行划分,得到训练集和验证集;

S023:采用所述训练集对待训练的第一模型进行训练,将训练结束的所述待训练的第一模型确定为待验证的第一模型,所述待训练的第一模型是基于所述预训练模型bert_this和所述CRF网络得到的模型;

S024:采用所述验证集对所述待验证的第一模型进行验证,当验证成功时确定所述待验证的第一模型为所述实体识别模型。

本实施例实现了基于预训练模型bert_this和CRF网络训练得到的所述实体识别模型,为对多条待治理的标问标答对进行实体识别提供了基础。

对应S021,可以从数据库中获取多个训练样本,也可以是用户输入的多个训练样本,还可以是第三方应用系统发送的多个训练样本。

可选的,训练样本是基于未治理的知识库得到的训练样本。

每个训练样本包括一个待训练文本样本数据和一个文本样本标定数据。待训练文本样本数据可以是未治理的知识库中的标问文本数据,也可以是未治理的知识库中的标答文本数据。

同一个训练样本中,文本样本标定数据是对待训练文本样本数据进行实体数据识别的标定结果。

对应S022,将所述多个训练样本中的训练样本按预设划分规则划分到训练集或验证集中,也就是说,训练集和验证集中的训练样本不会重复。

可选的,预设划分规则为80%划分到训练集,20%划分到验证集。可以理解的是,预设划分规则还可以是其他规则,在此不做具体限定。

对应S023,采用所述训练集中的训练样本对待训练的第一模型进行训练,损失函数采用交叉熵损失函数,采用Adam优化器,Adam优化器的学习率设置为1e-5,度量方法设置为精准率,将训练结束的所述待训练的第一模型确定为待验证的第一模型。

所述待训练的第一模型包括:bert-base-chinese模块、CRF模块。bert-base-chinese模块经过训练,得到bert_this模块。

bert_this模块的批次为64、学习率为3e-5,训练的步数为50000,学习率优化方法(也就是warmup)的步数为5000。

对应S024,采用所述验证集对所述待验证的第一模型进行验证的方法可以从现有技术中选择,在此不做赘述。

当验证成功时确定所述待验证的第一模型为所述实体识别模型,否则重新执行步骤S023至步骤S024直至验证成功。

在一个实施例中,上述根据所述去重后的实体数据集和所述多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集的步骤,包括:

S41:采用最小编辑距离计算方法对所述去重后的实体数据集中的所有实体数据进行两两相似度计算,得到所述多条待治理的标问标答对对应的实体相似度矩阵;

S42:按列分别从所述多条待治理的标问标答对对应的所述实体相似度矩阵中提取出实体相似度,得到多个待优化的实体相似度集;

S43:获取第一相似度阈值,分别从每个所述待优化的实体相似度集中获取大于所述第一相似度阈值的实体相似度,得到所述多个待优化的实体相似度集各自对应的待对齐的实体相似度集;

S44:分别根据每个所述待优化的实体相似度集对应的所述待对齐的实体相似度集和所述去重后的实体数据集,得到多个所述待对齐的实体相似度集各自对应的待筛选的实体数据集;

S45:分别对每个所述待对齐的实体相似度集对应的所述待筛选的实体数据集进行字符最多的实体数据获取,得到多个所述待对齐的实体相似度集各自对应的最优实体数据;

S46:采用所述每个所述待对齐的实体相似度集对应的所述最优实体数据对所述多条待治理的标问标答对进行替换,得到所述实体对齐后的标问标答对集。

本实施例实现了根据所述去重后的实体数据集中各个实体数据之间的实体相似度进行实体数据对齐处理,有利于提高实体对齐后的标问标答对集的实体数据规范性,从而有利于提高标问标答的治理的质量。

对应S41,实体相似度similariry的计算公式为:

其中,similariry是所述多条待治理的标问标答对对应的实体相似度矩阵的实体相似度,ED

所述去重后的实体数据集中实体数量为EN,则所述多条待治理的标问标答对对应的实体相似度矩阵的行数和列数均为EN,实体相似度矩阵中每个元素代表行号对应的实体数据和列号对应的实体数据之间的相似度。比如,实体相似度矩阵的第3行第5列的元素是第3行对应的实体数据和第5列对应的实体数据之间的相似度,在此举例不做具体限定。

可选的,实体相似度矩阵中数值相同的行号和列号对应对应实体数据。比如,实体相似度矩阵的第3行第3列的元素对应的第3行的实体数据和第3列的实体数据相同,在此举例不做具体限定。

对应S42,按列从所述多条待治理的标问标答对对应的所述实体相似度矩阵中提取出实体相似度,也就是将所述实体相似度矩阵中每列元素作为一个待优化的实体相似度集。

可以理解的是,所述去重后的实体数据集中实体数量为EN,所述多个待优化的实体相似度集中待优化的实体相似度集的数量也为EN。

可以理解的是,在另一个实施例中,也可以按行分别从所述多条待治理的标问标答对对应的所述实体相似度矩阵中提取出实体相似度,得到多个待优化的实体相似度集,按行提取出实体相似度的方法也按列提取出实体相似度的方法的效果相同。

对应S43,可以从数据库中获取第一相似度阈值,也可以是用户输入的第一相似度阈值,还可以是第三方应用系统发送的第一相似度阈值。可以理解的是,也可以将第一相似度阈值写入实现本申请的程序文件中。

从多个待优化的实体相似度集中获取一个待优化的实体相似度集,得到目标待优化的实体相似度集;将目标待优化的实体相似度集中每个实体相似度与第一相似度阈值进行对比,将目标待优化的实体相似度集中大于第一相似度阈值的实体相似度作为目标待优化的实体相似度集对应的待对齐的实体相似度,将目标待优化的实体相似度集对应的所有待对齐的实体相似度作为目标待优化的实体相似度集对应的待对齐的实体相似度集;重复执行所述从多个待优化的实体相似度集中获取一个待优化的实体相似度集,得到目标待优化的实体相似度集的步骤,直至确定所述多个待优化的实体相似度集各自对应的待对齐的实体相似度集。

对应S44,从所述多个待优化的实体相似度集各自对应的待对齐的实体相似度集中提取出一个待对齐的实体相似度集作为目标待对齐的实体相似度集;将目标待对齐的实体相似度集中的待对齐的实体相似度在所述去重后的实体数据集中进行实体数据查找,将在所述去重后的实体数据集中查找到的实体数据作为目标待对齐的实体相似度集对应的待筛选的实体数据,将目标待对齐的实体相似度集对应的所有待筛选的实体数据作为目标待对齐的实体相似度集对应的待筛选的实体数据集;重复执行所述从所述多个待优化的实体相似度集各自对应的待对齐的实体相似度集中提取出一个待对齐的实体相似度集作为目标待对齐的实体相似度集的步骤,直至确定多个所述待对齐的实体相似度集各自对应的待筛选的实体数据集。

比如,步骤S42是按列提取时,目标待对齐的实体相似度集中的行号为21和列号为32的实体相似度,将行号为21和列号为32的实体相似度的行号21在所述去重后的实体数据集对应的实体数据作为目标待对齐的实体相似度集中的行号为21和列号为32的实体相似度的待筛选的实体数据,在此举例不做具体限定。

对应S45,从多个所述待对齐的实体相似度集各自对应的待筛选的实体数据集中提取出一个待对齐的实体相似度集作为目标待对齐的实体相似度集;从目标待对齐的实体相似度集对应的待筛选的实体数据集中进行字符最多的实体数据获取,得到目标待对齐的实体相似度集对应的最优实体数据;重复执行从多个所述待对齐的实体相似度集各自对应的待筛选的实体数据集中提取出一个待对齐的实体相似度集作为目标待对齐的实体相似度集的步骤,直至确定多个所述待对齐的实体相似度集各自对应的最优实体数据。

对应S46,从多个所述待对齐的实体相似度集各自对应的最优实体数据中提取出一个所述待对齐的实体相似度集作为目标待对齐的实体相似度集;将目标待对齐的实体相似度集对应的实体数据作为目标待对齐的实体相似度集对应的待替换的实体数据集;采用目标待对齐的实体相似度集对应的所述待替换的实体数据集和所述最优实体数据对所述多条待治理的标问标答对进行替换;重复执行所述从多个所述待对齐的实体相似度集各自对应的最优实体数据中提取出一个所述待对齐的实体相似度集作为目标待对齐的实体相似度集的步骤,直至完成将所有所述待对齐的实体相似度集各自对应的所述最优实体数据对所述多条待治理的标问标答对进行替换。

采用目标待对齐的实体相似度集对应的所述待替换的实体数据集和所述最优实体数据对所述多条待治理的标问标答对进行替换,也就是采用目标待对齐的实体相似度集对应的最优实体数据将所述多条待治理的标问标答对中与目标待对齐的实体相似度集对应的所述待替换的实体数据集中相同的实体数据进行替换。

在一个实施例中,上述根据所述实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集的步骤,包括:

S51:采用文本类别和实体数据对所述实体对齐后的标问标答对集进行划分,得到多个标问文本数据同实体子集和多个标答文本数据同实体子集;

S52:采用余弦相似度计算方法分别对每个所述标问文本数据同实体子集中的实体对齐后的标问文本数据进行两两相似度计算,得到所述多个标问文本数据同实体子集各自对应的标问相似度矩阵;

S53:采用余弦相似度计算方法分别对每个所述标答文本数据同实体子集中的实体对齐后的标答文本数据进行两两相似度计算,得到所述多个标答文本数据同实体子集各自对应的标答相似度矩阵;

S54:根据所述实体对齐后的标问标答对集、所述标问相似度矩阵、所述标答相似度矩阵进行相似性判断,得到所述疑似相似的标问标答对集、所述不完全相似的标问标答对集和所述不相似的标问标答对集。

本实施例实现了根据所述实体对齐后的标问标答对集的标问文本数据和标答文本数据之间的实体数据进行相似性判断,有利于对述实体对齐后的标问标答对集的标问文本数据和标答文本数据之间的实体数据根据相似性判断结果进行归类,为解决标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题提供了基础。

对应S51,对所述实体对齐后的标问标答对集中的实体对齐后的标问文本数据集按实体数据进行划分,得到多个标问文本数据同实体子集,同一标问文本数据同实体子集具有相同的实体数据。对所述实体对齐后的标问标答对集中的实体对齐后的标答文本数据集按实体数据进行划分,得到多个标答文本数据同实体子集,同一标答文本数据同实体子集具有相同的实体数据。

对应S52,将多个标问文本数据同实体子集中任一标问文本数据同实体子集作为目标标问文本数据同实体子集;将目标标问文本数据同实体子集中每个所述实体对齐后的标问文本数据输入预训练语言模型BERT_this进行标志位的向量预测,得到目标标问文本数据同实体子集中所有所述实体对齐后的标问文本数据各自对应的目标第一向量;采用余弦相似度计算方法对目标标问文本数据同实体子集中所有所述实体对齐后的标问文本数据各自对应的目标第一向量中任意两个所述目标第一向量进行标问相似度计算,得到所述目标标问文本数据同实体子集对应的标问相似度矩阵。

余弦相似度计算方法中标问相似度cos(θ)的计算公式为:

其中,a代表任意两个所述目标第一向量的第一个,b代表任意两个所述目标第一向量的第二个。a·b是指向量a和向量b的乘集,||a||是计算向量a的模。

对应S53,将多个标答文本数据同实体子集中任一标答文本数据同实体子集作为目标标答文本数据同实体子集;将目标标答文本数据同实体子集中每个所述实体对齐后的标答文本数据输入预训练语言模型BERT_this进行标志位的向量预测,得到目标标答文本数据同实体子集中所有所述实体对齐后的标答文本数据各自对应的目标第二向量;采用余弦相似度计算方法对目标标答文本数据同实体子集中所有所述实体对齐后的标答文本数据各自对应的目标第二向量中任意两个所述目标第二向量进行标答相似度计算,得到所述目标标答文本数据同实体子集对应的标答相似度矩阵。

对应S54,根据所述标问相似度矩阵、所述标答相似度矩阵进行相似性判断进行相似性判断,根据相似性判断结果对所述实体对齐后的标问标答对集中的标问标答对进行归类,归类结束得到所述疑似相似的标问标答对集、所述不完全相似的标问标答对集和所述不相似的标问标答对集。

在一个实施例中,上述根据所述实体对齐后的标问标答对集、所述标问相似度矩阵、所述标答相似度矩阵进行相似性判断,得到所述疑似相似的标问标答对集、所述不完全相似的标问标答对集和所述不相似的标问标答对集的步骤,包括:

S541:按列分别从所述标问相似度矩阵中提取出标问相似度,得到多个待优化的标问相似度集;

S542:按列分别从所述标答相似度矩阵中提取出标答相似度,得到多个待优化的标答相似度集;

S543:获取第二相似度阈值;

S544:分别从所述多个待优化的标问相似度集和所述多个待优化的标答相似度集中提取所述实体对齐后的标问标答对集的每个实体对齐后的标问标答对对应的待优化的标问相似度和待优化的标答相似度;

S545:当存在所述实体对齐后的标问标答对集的所述实体对齐后的标问标答对对应的所述待优化的标问相似度和所述待优化的标答相似度均大于所述第二相似度阈值时,根据所述实体对齐后的标问标答对,确定所述疑似相似的标问标答对集;

S546:当存在所述实体对齐后的标问标答对集的所述实体对齐后的标问标答对对应的所述待优化的标问相似度和所述待优化的标答相似度中任一个小于或等于所述第二相似度阈值时,根据所述实体对齐后的标问标答对,确定待区分的标问标答对集;

S547:当存在根据所述待区分的标问标答对集中的所述实体对齐后的标问标答对的标问文本数据的属性数量和标答文本数据的属性数量均等于1时,根据所述实体对齐后的标问标答对,确定所述不相似的标问标答对集;

S548:当存在根据所述待区分的标问标答对集中的所述实体对齐后的标问标答对的标问文本数据的属性数量和标答文本数据的属性数量的其中一个不等于1时,根据所述实体对齐后的标问标答对,确定所述不完全相似的标问标答对集。

本实施例实现了根据所述实体对齐后的标问标答对集、所述标问相似度矩阵、所述标答相似度矩阵进行相似性判断,有利于对述实体对齐后的标问标答对集的标问文本数据和标答文本数据之间的实体数据根据相似度进行归类,为解决标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题提供了基础。

对应S541,按列从所述标问相似度矩阵中提取出标问相似度,也就是将所述标问相似度矩阵中每列元素作为一个待优化的标问相似度集。

可以理解的是,在另一个实施例中,也可以按行分别从所述标问相似度矩阵中提取出标问相似度,得到多个待优化的标问相似度集,按行提取出标问相似度的方法也按列提取出标问相似度的方法的效果相同。

对应S542,按列从所述标答相似度矩阵中提取出标答相似度,也就是将所述标答相似度矩阵中每列元素作为一个待优化的标答相似度集。

可以理解的是,在另一个实施例中,也可以按行分别从所述标答相似度矩阵中提取出标答相似度,得到多个待优化的标答相似度集,按行提取出标答相似度的方法也按列提取出标答相似度的方法的效果相同。

对应S543,可以从数据库中获取第二相似度阈值,也可以是用户输入的第二相似度阈值,还可以是第三方应用系统发送的第二相似度阈值。可以理解的是,也可以将第二相似度阈值写入实现本申请的程序文件中。

对应S544,将所述实体对齐后的标问标答对集中任一个实体对齐后的标问标答对作为目标实体对齐后的标问标答对;将目标实体对齐后的标问标答对在所述多个待优化的标问相似度集中提取出标问相似度作为目标实体对齐后的标问标答对对应的所述待优化的标问相似度,将目标实体对齐后的标问标答对在所述多个待优化的标答相似度集中提取出标答相似度作为目标实体对齐后的标问标答对对应的所述待优化的标答相似度。

对应S545,将所述实体对齐后的标问标答对集中任一个实体对齐后的标问标答对作为目标实体对齐后的标问标答对;当目标实体对齐后的标问标答对对应的所述待优化的标问相似度和所述待优化的标答相似度均大于所述第二相似度阈值时,意味着此时目标实体对齐后的标问标答对与所述实体对齐后的标问标答对集中其他数据具有较高相似度,此时将目标实体对齐后的标问标答对归类到所述疑似相似的标问标答对集。

对应S546,将所述实体对齐后的标问标答对集中任一个实体对齐后的标问标答对作为目标实体对齐后的标问标答对;当目标实体对齐后的标问标答对对应的所述待优化的标问相似度和所述待优化的标答相似度中任一个小于或等于所述第二相似度阈值时,意味着此时目标实体对齐后的标问标答对与所述实体对齐后的标问标答对集中其他数据可能相似,此时将目标实体对齐后的标问标答对归类到待区分的标问标答对集。

对应S547,将所述待区分的标问标答对集中任一个实体对齐后的标问标答对作为待区分的实体对齐后的标问标答对;当待区分的实体对齐后的标问标答对的标问文本数据的属性数量和标答文本数据的属性数量均等于1时,意味着待区分的实体对齐后的标问标答对中属性单一,不需要进行属性去重处理,此时将待区分的实体对齐后的标问标答对归类到所述不相似的标问标答对集。

对应S548,将所述待区分的标问标答对集中任一个实体对齐后的标问标答对作为待区分的实体对齐后的标问标答对;当待区分的实体对齐后的标问标答对的标问文本数据的属性数量和标答文本数据的属性数量的其中一个不等于1时,意味着待区分的实体对齐后的标问标答对中属性不单一,需要进行属性去重处理,此时将待区分的实体对齐后的标问标答对归类到所述不完全相似的标问标答对集。

在一个实施例中,上述对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集的步骤,包括:

S61:分别对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性数量等于0的所述标问文本数据的查找和删除,得到优化后的疑似相似的标问标答对集和优化后的不完全相似的标问标答对集;

S62:依次分别从所述优化后的疑似相似的标问标答对集和所述优化后的不完全相似的标问标答对集中提取出标问标答对,得到待去重的标问标答对;

S63:当所述待去重的标问标答对中的标问文本数据的属性数量等于1时,将所述待去重的标问标答对作为去重后的标问标答对;

S64:当所述待去重的标问标答对中的标问文本数据的属性数量大于1,或者,所述待去重的标问标答对中的标答文本数据的属性值大于1时,将所述待去重的标问标答对进行属性分离和属性值分离,得到多个单属性单属性值标问文本数据和多个单属性单属性值标答文本数据;

S65:采用保留最长字符原则对所述多个单属性单属性值标问文本数据和所述多个单属性单属性值标答文本数据进行相同属性去重处理和相同属性值去重处理,得到去重处理后的单属性单属性值标问文本数据集和去重处理后的单属性单属性值标答文本数据集;

S66:将所述去重处理后的单属性单属性值标问文本数据集的每个单属性单属性值标问文本数据与所述去重处理后的单属性单属性值标答文本数据集中的每个所述单属性单属性值标问文本数据进行配对,得到多个所述去重后的标问标答对;

S67:根据所有所述去重后的标问标答对,确定所述去重后的标问标答对集。

本实施例实现了进行属性去重处理和属性值去重处理,提高了治理后的知识库的质量,不需要持续人工参与治理过程,提高了治理效率。

对应S61,从所述疑似相似的标问标答对集中找出属性数量等于0的所述标问文本数据,将找出的所述标问文本数据从所述疑似相似的标问标答对集中删除,得到优化后的疑似相似的标问标答对集;从所述不完全相似的标问标答对集中找出属性数量等于0的所述标问文本数据,将找出的所述标问文本数据从所述不完全相似的标问标答对集中删除,将删除后的所述不完全相似的标问标答对集作为优化后的不完全相似的标问标答对集。从而解决了标准问题存在没有意图的问题。

属性数量中的属性是指三元组中属性(也就是对实体与实体之间关系的抽象)。

对应S62,从所述优化后的疑似相似的标问标答对集提取出标问标答对,从所述优化后的不完全相似的标问标答对集中提取出标问标答对,将提取出的每个标问标答对作为一个待去重的标问标答对。

对应S63,当所述待去重的标问标答对中的标问文本数据的属性数量等于1时,意味着所述待去重的标问标答对属性单一,不需要进行属性去重处理,此时将所述待去重的标问标答对作为去重后的标问标答对。

对应S64,当所述待去重的标问标答对中的标问文本数据的属性数量大于1,或者,所述待去重的标问标答对中的标答文本数据的属性值大于1时,意味着所述待去重的标问标答对属性不单一,需要进行属性去重处理,将所述待去重的标问标答对的标问文本数据按单属性单属性进行分离,得到多个单属性单属性值标问文本数据,将所述待去重的标问标答对的标答文本数据按单属性单属性进行分离,得到多个单属性单属性值标答文本数据。也就是说,单属性单属性值标问文本数据中的属性具有唯一性,属性值具有唯一性。单属性单属性值标答文本数据中的属性具有唯一性,属性值具有唯一性。

属性值,是指三元组中的属性的值(值是用来描述实体的,可以分为文本型和数值型)。

对应S65,采用保留属性最长字符原则和保留属性值最长字符原则,对所述多个单属性单属性值标问文本数据进行相同属性去重处理和相同属性值去重处理,得到去重处理后的单属性单属性值标问文本数据集;采用保留属性最长字符原则和保留属性值最长字符原则,对所述多个单属性单属性值标答文本数据进行相同属性去重处理和相同属性值去重处理,得到去重处理后的单属性单属性值标答文本数据集。

对应S66,将所述去重处理后的单属性单属性值标问文本数据集中的单属性单属性值标问文本数据与所述去重处理后的单属性单属性值标答文本数据集中的所述单属性单属性值标问文本数据进行一一配对,得到多个所述去重后的标问标答对。

重复执行步骤S62至步骤S66,直至完成优化后的疑似相似的标问标答对集和优化后的不完全相似的标问标答对集中所有标问标答对的处理。

对应S67,将所有所述去重后的标问标答对作为所述去重后的标问标答对集。

在一个实施例中,上述分别对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性数量等于0的所述标问文本数据的查找和删除,得到优化后的疑似相似的标问标答对集和优化后的不完全相似的标问标答对集的步骤,包括:

S611:从所述疑似相似的标问标答对集中的所有标问文本数据中找出属性数量等于0的所述标问文本数据,得到第一待删除的标问文本数据;

S612:将所述第一待删除的标问文本数据从所述疑似相似的标问标答对集中进行删除,得到所述优化后的疑似相似的标问标答对集;

S613:从所述不完全相似的标问标答对集中的所有标答文本数据中找出属性数量等于0的所述标答文本数据,得到第一待删除的标答文本数据;

S614:将所述第一待删除的标答文本数据从所述不完全相似的标问标答对集中进行删除,得到所述优化后的不完全相似的标问标答对集。

本实施例实现了删除属性数量等于0的所述标问文本数据,从而解决了标准问题存在没有意图的问题。

对应S611,从所述疑似相似的标问标答对集中的所有标问文本数据中找出属性数量等于0的所述标问文本数据,将找出的所述标问文本数据作为第一待删除的标问文本数据。

对应S612,将所述第一待删除的标问文本数据从所述疑似相似的标问标答对集中进行删除,将删除处理后的所述疑似相似的标问标答对集作为所述优化后的疑似相似的标问标答对集。

对应S613,从所述不完全相似的标问标答对集中的所有标答文本数据中找出属性数量等于0的所述标答文本数据,将找出将找出的所述标答文本数据作为第一待删除的标答文本数据。

对应S614,将所述第一待删除的标答文本数据从所述不完全相似的标问标答对集中进行删除,将删除处理后的所述不完全相似的标问标答对集作为所述优化后的不完全相似的标问标答对集。

参照图2,本申请还提出了一种知识库的标问标答的治理装置,所述装置包括:

数据获取模块100,用于获取多条待治理的标问标答对,所述待治理的标问标答对包括:待治理的标问文本数据和待治理的标答文本数据;

实体识别模块200,用于将所述多条待治理的标问标答对输入实体识别模型进行实体识别,得到所述多条待治理的标问标答对对应的待去重的实体数据集,所述实体识别模型是基于预训练模型bert_this和CRF网络训练得到的模型;

实体数据的去重处理模块300,用于对所述待去重的实体数据集进行实体数据的去重处理,得到所述多条待治理的标问标答对对应的去重后的实体数据集;

实体数据对齐处理模块400,用于根据所述去重后的实体数据集和所述多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集;

相似性判断模块500,用于根据所述实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将所述不相似的标问标答对集更新到目标知识库中;

属性去重处理和属性值去重处理模块600,用于对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将所述去重后的标问标答对集更新到所述目标知识库中。

本实施例通过将多条待治理的标问标答对输入实体识别模型进行实体识别,得到多条待治理的标问标答对对应的待去重的实体数据集,对待去重的实体数据集进行实体数据的去重处理,得到多条待治理的标问标答对对应的去重后的实体数据集,根据去重后的实体数据集和多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集,根据实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将不相似的标问标答对集更新到目标知识库中,对疑似相似的标问标答对集和不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将去重后的标问标答对集更新到目标知识库中,从而使目标知识库中不会出现现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题,提高了知识库的质量,不需要持续人工参与治理过程,提高了治理效率。

参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存知识库的标问标答的治理方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识库的标问标答的治理方法。所述知识库的标问标答的治理方法,包括:获取多条待治理的标问标答对,所述待治理的标问标答对包括:待治理的标问文本数据和待治理的标答文本数据;将所述多条待治理的标问标答对输入实体识别模型进行实体识别,得到所述多条待治理的标问标答对对应的待去重的实体数据集,所述实体识别模型是基于预训练模型bert_this和CRF网络训练得到的模型;对所述待去重的实体数据集进行实体数据的去重处理,得到所述多条待治理的标问标答对对应的去重后的实体数据集;根据所述去重后的实体数据集和所述多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集;根据所述实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将所述不相似的标问标答对集更新到目标知识库中;对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将所述去重后的标问标答对集更新到所述目标知识库中。

本实施例通过将多条待治理的标问标答对输入实体识别模型进行实体识别,得到多条待治理的标问标答对对应的待去重的实体数据集,对待去重的实体数据集进行实体数据的去重处理,得到多条待治理的标问标答对对应的去重后的实体数据集,根据去重后的实体数据集和多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集,根据实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将不相似的标问标答对集更新到目标知识库中,对疑似相似的标问标答对集和不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将去重后的标问标答对集更新到目标知识库中,从而使目标知识库中不会出现现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题,提高了知识库的质量,不需要持续人工参与治理过程,提高了治理效率。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种知识库的标问标答的治理方法,包括步骤:获取多条待治理的标问标答对,所述待治理的标问标答对包括:待治理的标问文本数据和待治理的标答文本数据;将所述多条待治理的标问标答对输入实体识别模型进行实体识别,得到所述多条待治理的标问标答对对应的待去重的实体数据集,所述实体识别模型是基于预训练模型bert_this和CRF网络训练得到的模型;对所述待去重的实体数据集进行实体数据的去重处理,得到所述多条待治理的标问标答对对应的去重后的实体数据集;根据所述去重后的实体数据集和所述多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集;根据所述实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将所述不相似的标问标答对集更新到目标知识库中;对所述疑似相似的标问标答对集和所述不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将所述去重后的标问标答对集更新到所述目标知识库中。

上述执行的知识库的标问标答的治理方法,通过将多条待治理的标问标答对输入实体识别模型进行实体识别,得到多条待治理的标问标答对对应的待去重的实体数据集,对待去重的实体数据集进行实体数据的去重处理,得到多条待治理的标问标答对对应的去重后的实体数据集,根据去重后的实体数据集和多条待治理的标问标答对进行实体数据对齐处理,得到实体对齐后的标问标答对集,根据实体对齐后的标问标答对集进行相似性判断,得到疑似相似的标问标答对集、不完全相似的标问标答对集和不相似的标问标答对集,将不相似的标问标答对集更新到目标知识库中,对疑似相似的标问标答对集和不完全相似的标问标答对集进行属性去重处理和属性值去重处理,得到去重后的标问标答对集,将去重后的标问标答对集更新到目标知识库中,从而使目标知识库中不会出现现有技术的知识库存在标准问题之间的知识重复、一个标准问题存在多个意图或没有意图、标准问题的意图个数和标准答案的值个数不相等造成答案不完全或答案过多的技术问题,提高了知识库的质量,不需要持续人工参与治理过程,提高了治理效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号