首页> 中国专利> 知识库中扩展问自动挖掘方法及其装置

知识库中扩展问自动挖掘方法及其装置

摘要

本申请涉及人工智能技术领域,提供一种知识库中扩展问自动挖掘方法及其装置。该方法包括:抽取知识库中多条待扩充知识的标准问和初始扩展问;基于标准问获取业务词集,采用业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;基于初始挖掘语料中每条文本与每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;对第一扩展语料进行聚类,获取第二扩展语料;若第二扩展语料不在初始扩展问中,则将第二扩展语料加入待扩充知识的扩展问中。本申请通过自动挖掘扩展问,避免人工编写,提高了扩展问的质量,丰富了扩展问的语义类型,从而提高智能问答的时效性和准确率,以及提升用户体验。

著录项

  • 公开/公告号CN116910218A

    专利类型发明专利

  • 公开/公告日2023-10-20

    原文格式PDF

  • 申请/专利号CN202310923799.0

  • 发明设计人 孟先艳;赵江江;

    申请日2023-07-26

  • 分类号G06F16/332(2019.01);G06F16/33(2019.01);G06F16/338(2019.01);G06F16/35(2019.01);

  • 代理机构北京路浩知识产权代理有限公司 11002;

  • 代理人李相雨

  • 地址 471023 河南省洛阳市经济技术开发区太康路与汇通街交叉口

  • 入库时间 2024-04-18 19:48:15

说明书

技术领域

本申请涉及人工智能技术领域,具体涉及一种知识库中扩展问自动挖掘方法及其装置。

背景技术

在智能问答场景中,知识库中扩展问的质量非常重要,扩展问的语义多样性越高、覆盖度越全则问答的准确率越高,知识库中的标准问可根据业务需求预先制定,而对于扩展问的构建,目前主要还是采用人工编写。人工编写的过程不仅繁琐、工作量巨大,且易受个人主观影响,编写范围有限,随着业务的不断调整,也无法及时做出更新,从而影响智能问答的时效性和准确率。

发明内容

本申请实施例提供一种知识库中扩展问自动挖掘方法及其装置,用以解决智能问答的时效性和准确率的问题。

第一方面,本申请实施例提供一种知识库中扩展问自动挖掘方法,包括:

抽取知识库中多条待扩充知识的标准问和初始扩展问;

基于所述标准问获取业务词集,采用所述业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;

基于所述初始挖掘语料中每条文本与所述每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;

对所述第一扩展语料进行聚类,获取第二扩展语料;

若所述第二扩展语料不在所述初始扩展问中,则将所述第二扩展语料加入所述待扩充知识的扩展问中。

在一个实施例中,所述基于所述初始挖掘语料中每条文本与所述每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料,包括:

将所述初始挖掘语料输入至神经网络模型,获取所述神经网络模型输出的所述初始挖掘语料中每条文本的第一语义向量;

获取所述每条文本的第一语义向量与所述每条待扩充知识的中心语义向量的第一语义相似度;

选取所述第一语义相似度大于第一设定阈值的文本数据,构建所述第一扩展语料。

在一个实施例中,若所述待扩充知识包括标准问和初始扩展问,则获取所述待扩充知识的中心语义向量,包括:

将所述待扩充知识输入所述神经网络模型,获取所述神经网络模型输出的所述标准问的语义向量和所述初始扩展问的语义向量;

基于所述标准问的语义向量和权重、所述初始扩展问的语义向量、权重和数量,获取所述待扩充知识的中心语义向量;

若所述待扩充知识包括标准问,则获取所述待扩充知识的中心语义向量,包括:

将所述待扩充知识输入所述神经网络模型,获取所述神经网络模型输出的所述标准问的语义向量;

将所述标准问的语义向量,作为所述待扩充知识的中心语义向量。

在一个实施例中,所述对所述第一扩展语料进行聚类,获取第二扩展语料,包括:

对所述第一扩展语料进行聚类,得到聚类结果;

基于所述聚类结果,获取每个聚类簇的聚类中心句,并确定所述聚类中心句的第二语义向量;

基于所述第二语义向量大于第二设定阈值的聚类簇中的所有文本,构建候选扩展语料;

基于所述候选扩展语料的第二语义相似度,选取至少一个所述候选扩展语料作为所述第二扩展语料。

在一个实施例中,所述对所述第一扩展语料进行聚类,得到聚类结果,包括:

获取初始聚类簇中各数据与所述初始聚类簇的簇中心的距离的平均值;

若所述平均值大于或等于第三设定阈值,且当前聚类迭代不是最后一次迭代,则更新所述初始聚类簇的数据;

若所述平均值小于第三设定阈值,且当前聚类迭代不是最后一次迭代,则将所述初始聚类簇内的数据作为下一次循环迭代的数据;

若所述平均值大于或等于第三设定阈值,或者当前聚类迭代是最后一次迭代,则停止聚类,得到所述聚类结果。

在一个实施例中,构建所述挖掘语料,包括:

获取用户交互的日志数据;

去除所述日志数据中的长短句、非业务话术、超低频话术以及无实际含义的字母,数字和符号,以构建所述挖掘语料。

在一个实施例中,所述基于所述标准问获取业务词集,包括:

抽取所述标准问中的业务词;

获取与所述业务词关联的目标业务词,基于所述业务词与所述目标业务词,获取所述每条待扩充知识的业务词集。

第二方面,本申请实施例提供一种知识库中扩展问自动挖掘装置,包括:

抽取模块,用于抽取知识库中多条待扩充知识的标准问和初始扩展问;

筛选模块,用于基于所述标准问获取业务词集,采用所述业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;

第一扩展语料获取模块,用于基于所述初始挖掘语料中每条文本与所述每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;

第二扩展语料获取模块,用于对所述第一扩展语料进行聚类,获取第二扩展语料;

挖掘模块,用于若所述第二扩展语料不在所述初始扩展问中,则将所述第二扩展语料加入所述待扩充知识的扩展问中。

第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的知识库中扩展问自动挖掘方法的步骤。

第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的知识库中扩展问自动挖掘方法的步骤。

本申请实施例提供的知识库中扩展问自动挖掘方法及其装置,通过抽取知识库中多条待扩充知识的标准问和初始扩展问;基于标准问获取业务词集,采用业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;基于初始挖掘语料中每条文本与每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;对第一扩展语料进行聚类,获取第二扩展语料;若第二扩展语料不在初始扩展问中,则将第二扩展语料加入待扩充知识的扩展问中。本申请通过自动挖掘扩展问,避免人工编写,提高了扩展问的质量,丰富了扩展问的语义类型,从而提高智能问答的时效性和准确率,以及提升用户体验。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的知识库中扩展问自动挖掘方法的流程示意图之一;

图2是本申请实施例提供的对第一扩展语料进行聚类的流程示意图;

图3是本申请实施例提供的知识库中扩展问自动挖掘方法的流程示意图之二;

图4是本申请实施例提供的知识库中扩展问自动挖掘装置的结构示意图;

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1是本申请实施例提供的知识库中扩展问自动挖掘方法的流程示意图之一。参照图1,本申请实施例提供一种知识库中扩展问自动挖掘方法,可以包括:

步骤100,抽取知识库中多条待扩充知识的标准问和初始扩展问;

需要说明的是,一个标准问对应多个扩展问,一条知识由一个标准问和多个扩展问构成。其中,标准问是指一个主要问题或核心问题,它代表着一类相关问题的共同点;扩展问是根据标准问衍生出来的更多问题,以进一步细化和丰富知识库的内容。例如,标准问为“什么是人工智能?”,对应的扩展问为“人工智能有哪些应用领域?”,或者“人工智能的发展历史是怎样的?”。

待扩充知识是指在一个知识库或数据库中,需要进一步添加、完善或更新的知识,例如,只包括标准问的知识。

抽取知识库中多条待扩充知识的标准问和初始扩展问,例如,有些知识暂无扩展问则只抽取标准问,其中,抽取的知识数量、扩展问数量可基于挖掘需求确定。

步骤200,基于所述标准问获取业务词集,采用所述业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;

对抽取到的标准问提取专有业务词集,具体地,抽取标准问中的业务词,然后获取与业务词关联的目标业务词,基于业务词与目标业务词,获取每条待扩充知识的业务词集。

例如,采用匹配方法或实体识别方法抽取标准问中的专有业务词,其中,匹配方法是基于预先定义的关键词表或模式进行匹配的方式,例如创建专有业务词表,包含想要抽取的专有名词、术语或短语;然后,对于每个标准问,可以逐一与专有业务词表进行匹配,如果标准问中出现了词表中的词汇,即可判定为专有业务词。实体识别方法是使用自然语言处理技术,识别文本中具有特定意义的命名实体的过程,例如使用预训练的实体识别模型,如命名实体识别(Named Entity Recognition,NER)模型,该模型可以识别文本中的人名、地名、组织机构名等实体,针对专有业务词进行训练或调整已有的NER模型,以识别出所需要的专有业务词。

进一步根据领域专有业务词典映射得到与其相关的所有业务词(即目标业务词),得到每条待扩充知识对应的业务词集:

words={word

例如,假设标准问为“移动花卡介绍”,抽取到业务词为“移动花卡”,在业务词典中映射得到相关业务词为:{“花呗卡”、“支付宝卡”…“花卡”}等,则该标准问对应的业务词集为:{“移动花卡”、“花呗卡”、“支付宝卡”…“花卡”}。

进一步地,构建挖掘语料,具体地,获取用户交互的日志数据,去除日志数据中的长短句、非业务话术、超低频话术以及无实际含义的字母,数字和符号,以构建挖掘语料。其中,超低频话术是指出现频率比较低的话术;无实际含义的字母,数字和符号是指上下文中没有实际含义或无法理解的字符,该些字符可能是一串随机的字母、数字或符号的组合。

然后采用业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料。例如,保留包括业务词的句子或段落,基于该句子或段落生成初始挖掘语料。

本申请实施例对于海量的日志数据,针对性的处理,去除长短句、无意义的字母数字符号、非业务话术和超低频话术,同时,根据业务词集对挖掘语料进行筛选,从海量数据中筛选出重点数据,避免全量语料计算的复杂度。

步骤300,基于所述初始挖掘语料中每条文本与所述每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;

在确定初始挖掘语料后,确定初始挖掘语料中每条文本的语义向量,计算每条文本的语义向量与每条待扩充知识的中心语义向量的第一语义相似度,然后,基于该第一语义相似度,获取第一扩展语料。

步骤400,对所述第一扩展语料进行聚类,获取第二扩展语料;

对第一扩展语料进行聚类,基于聚类结果获取第二扩展语料。例如,采用K-Means、层次聚类(Hierarchical Clustering)、DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,具有噪声的基于密度的空间聚类算法)等聚类算法对第一扩展语料进行聚类。

步骤500,若所述第二扩展语料不在所述初始扩展问中,则将所述第二扩展语料加入所述待扩充知识的扩展问中。

在确定第二扩展语料后,获取第二扩展语料所对应的每条扩充知识的标准问和初始扩展问,例如,根据知识库中标准问和扩展问的映射关系,获取第二扩展语料所对应的标准问和初始扩展问集合,基于此,将第二扩展语料与知识库中待扩充知识的标准问和初始扩展问进行了关联。

进一步地,将第二扩展语料和初始扩展问进行对比,若第二扩展语料不在初始扩展问中,则对第二扩展语料中的月份、价格等词汇进行匿名化,并将匿名化后的结果存入该知识对应的扩展问汇总。例如,假设标准问为“质疑话费去向”标准问,其中的一个扩展问为“我那个100元的话费是什么消费”,此时对扩展问中的“100元”个人消费数据匿名化为“$金额”,得到匿名化后的扩展问为“我那个$金额是什么消息”,并将其匿名化后的结果存到“质疑话费去向”这个标准问的扩展问中。

本申请实施例提供的知识库中扩展问自动挖掘方法,通过抽取知识库中多条待扩充知识的标准问和初始扩展问;基于标准问获取业务词集,采用业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;基于初始挖掘语料中每条文本与每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;对第一扩展语料进行聚类,获取第二扩展语料;若第二扩展语料不在初始扩展问中,则将第二扩展语料加入待扩充知识的扩展问中。本申请实施例通过自动挖掘扩展问,避免人工编写,提高了扩展问的质量,丰富了扩展问的语义类型,从而提高智能问答的时效性和准确率,以及提升用户体验。

在一个实施例中,所述基于所述初始挖掘语料中每条文本与所述每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料,包括:

步骤310,将所述初始挖掘语料输入至神经网络模型,获取所述神经网络模型输出的所述初始挖掘语料中每条文本的第一语义向量;

步骤320,获取所述每条文本的第一语义向量与所述每条待扩充知识的中心语义向量的第一语义相似度;

步骤330,选取所述第一语义相似度大于第一设定阈值的文本数据,构建所述第一扩展语料。

需要说明的是,神经网络模型可以是BERT(Bidirectional EncoderRepresentations from Transformers)、ERNIE(Enhanced Representation throughkNowledge IntEgration)等预训练语言模型,由特定领域业务数据训练得到。

将初始挖掘语料输入至神经网络模型,获取神经网络模型输出的初始挖掘语料中每条文本的第一语义向量,然后,获取每条文本的第一语义向量与每条待扩充知识的中心语义向量的第一语义相似度。例如,采用余弦相似度计算两个向量的语义相似度:

其中,c为中心语义向量,q

还可以采用欧氏距离表示两个向量的语义相似度:

d(c,q

其中,c为中心语义向量,q

可选地,还可以采用曼哈顿距离表示两个向量的语义相似度。

然后,选取第一语义相似度大于第一设定阈值的文本数据,构建第一扩展语料q

本申请实施例通过深度神经网络计算语句的语义向量,以知识库中知识的中心语义向量来表示知识的全局特征,计算初始挖掘语料中语义向量与全局特性的相似度,弥补单条扩展问相似度计算的局限性。

在一个实施例中,若所述待扩充知识包括标准问和初始扩展问,则获取所述待扩充知识的中心语义向量,包括:

步骤340,将所述待扩充知识输入所述神经网络模型,获取所述神经网络模型输出的所述标准问的语义向量和所述初始扩展问的语义向量;

步骤350,基于所述标准问的语义向量和权重、所述初始扩展问的语义向量、权重和数量,获取所述待扩充知识的中心语义向量;

若所述待扩充知识包括标准问,则获取所述待扩充知识的中心语义向量,包括:

步骤360,将所述待扩充知识输入所述神经网络模型,获取所述神经网络模型输出的所述标准问的语义向量;

步骤370,将所述标准问的语义向量,作为所述待扩充知识的中心语义向量。

如果待扩充知识包括标准问和初始扩展问,则将每条待扩充知识的标准问和初始扩展问输入神经网络模型,获取每条待扩充句子的语义向量,包括标准问的语义向量和初始扩展问的语义向量;然后,对每条待扩充知识的标准问和初始扩展问的语义向量加权求平均后得到每条待扩充知识的中心语义向量,计算公式如下:

其中,c为中心语义向量,s

如果待扩充知识没有扩展问,将待扩充知识的标准问输入神经网络模型,获取神经网络模型输出的标准问的语义向量,然后将该标准问的语义向量,作为待扩充知识的中心语义向量。

本申请实施例以知识库中知识的中心语义向量来表示知识的全局特征,基于此,使用中心语义向量可以将高维的知识降低到低维空间,从而减少存储和计算的复杂性。

在一个实施例中,所述对所述第一扩展语料进行聚类,获取第二扩展语料,包括:

步骤410,对所述第一扩展语料进行聚类,得到聚类结果;

步骤420,基于所述聚类结果,获取每个聚类簇的聚类中心句,并确定所述聚类中心句的第二语义向量;

步骤430,基于所述第二语义向量大于第二设定阈值的聚类簇中的所有文本,构建候选扩展语料;

步骤440,基于所述候选扩展语料的第二语义相似度,选取至少一个所述候选扩展语料作为所述第二扩展语料。

对第一扩展语料进行聚类,得到聚类结果。具体地获取初始聚类簇中各数据与初始聚类簇的簇中心的距离的平均值;若平均值大于或等于第三设定阈值,且当前聚类迭代不是最后一次迭代,则更新初始聚类簇的数据;若平均值小于第三设定阈值,且当前聚类迭代不是最后一次迭代,则将初始聚类簇内的数据作为下一次循环迭代的数据;若平均值大于或等于第三设定阈值,或者当前聚类迭代是最后一次迭代,则停止聚类,得到聚类结果。

例如,参考图2,对第一扩展语料采用迭代深度聚类方法进行聚类,首先计算各初始聚类簇内各个数据与簇中心(即聚类中心)的欧式空间距离的平均值;然后通过设置聚类阈值(第三设定阈值)对平均值进行过滤筛选。若当前初始聚类簇满足聚类阈值要求(即平均值大于或等于聚类阈值),且当前聚类迭代不是最后一次迭代,则对初始聚类簇内数据的标签等数值信息进行更新。反之,若不满足聚类阈值要求(即平均值小于聚类阈值),且当前聚类迭代不是最后一次迭代,则将初始聚类簇内所有数据作为下次循环迭代的数据。以此迭代直到满足聚类阈值或当前聚类迭代是最后一次迭代,获得最终聚类结果。

进一步基于聚类结果,获取每个聚类簇的聚类中心句,并确定聚类中心句的第二语义向量,基于第二语义向量大于第二设定阈值的聚类簇中的所有文本,构建候选扩展语料;基于候选扩展语料的第二语义相似度,选取至少一个候选扩展语料作为第二扩展语料。其中,聚类中心句的第二语义向量同样是基于神经网络模型得到的;第二设定阈值大于第一设定阈值。

例如,根据聚类结果,获取聚类后每个聚类簇的聚类中心句,设置第二阈值,计算每簇中聚类中心句的语义向量是否大于第二阈值,若大于第二阈值,则将该聚类簇中的所有句子放到候选扩展语料集中,若小于第二阈值,则该簇中所有句子不是扩展语料,最后从候选扩展语料中按语义相似度选择前N个扩展语料为第二扩展语料q

本申请实施例过深度聚类的方法进行聚类,并采用聚类后中心句的相似度是否满足阈值确定扩展问的聚类簇,快速定位扩展语料,通过聚类和相似度互相弥补选择高质量多语义的语料。

为了进一步对本申请实施例提出的知识库中扩展问自动挖掘方法进行解析说明,参考图3以及以下实施例。

知识库中扩展问自动挖掘方法包括以下步骤:

(1)抽取知识库中待扩充知识的标准问和初始扩展问;

(2)对抽取到的标准问提取专有业务词集;

(3)计算每条扩充知识的中心语义向量;

(4)构建挖掘语料,并采用业务词集对挖掘语料进行筛选,获得每条扩充知识的初始挖掘语料;

(5)根据初始挖掘语料中每条文本与中心语义向量的语义相似度,获取第一扩展语料;

(6)对第一扩展语料进行聚类,获取第二扩展语料;

(7)获取第二扩展语料所对应的每条扩充知识的标准问和初始扩展问;

(8)将第二扩展语料和初始扩展问进行对比,若第二扩展语料不在初始扩展问中,则将匿名化后的第二扩展语料存入该知识的扩展问中,完成对应知识扩展问的自动挖掘。

本申请实施例在构建挖掘语料过程中,针对海量的日志数据,针对性的处理,去除长短句、无意义的字母数字符号、非业务话术和超低频话术,同时,根据业务词集对挖掘语料进行筛选,从海量数据中筛选出重点数据,避免全量语料计算的复杂度。

对于语义相似度的计算,通过深度神经网络计算语句的语义向量,以知识库中知识的中心语义向量来表示知识的全局特征,计算初始挖掘语料中语义向量与全局特性的相似度,弥补单条扩展问相似度计算的局限性。

对于扩展语料的选择,通过深度聚类的方法进行聚类,并采用聚类后中心句的相似度是否满足阈值确定扩展问的聚类簇,快速定位扩展语料,通过聚类和相似度互相弥补选择高质量多语义的语料。

基于此,本申请实施例具有以下优点:

快速挖掘,由于待挖掘的线上语料都是海量的,对挖掘语料按业务词集进行初筛,避免了与大量无关语料的计算过程,且使后续的挖掘更具有针对性。

可挖掘出高质量的扩展问,采用中心语义向量来表示全局特征,避免在语义相似度的计算过程中更偏向某一具体示例,陷入局部最优。

可挖掘出更具有丰富语义特性的扩展问,在聚类语料和聚类簇的选择过程中,通过设置不同的阈值和簇中心句的比较,更全面的考虑了多种语义特性,且快递找到聚类目标簇,且通过全局相似度和聚类簇,可获得更丰富的语义特性,避免选取的扩展问过于单一。

下面对本申请实施例提供的知识库中扩展问自动挖掘装置进行描述,下文描述的知识库中扩展问自动挖掘装置与上文描述的知识库中扩展问自动挖掘方法可相互对应参照。

参考图4,图4是本申请实施例提供的知识库中扩展问自动挖掘装置的结构示意图,本申请实施例提供的知识库中扩展问自动挖掘装置包括抽取模块401、筛选模块402、第一扩展语料获取模块403、第二扩展语料获取模块404和挖掘模块405。

抽取模块401,用于抽取知识库中多条待扩充知识的标准问和初始扩展问;

筛选模块402,用于基于所述标准问获取业务词集,采用所述业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;

第一扩展语料获取模块403,用于基于所述初始挖掘语料中每条文本与所述每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;

第二扩展语料获取模块404,用于对所述第一扩展语料进行聚类,获取第二扩展语料;

挖掘模块405,用于若所述第二扩展语料不在所述初始扩展问中,则将所述第二扩展语料加入所述待扩充知识的扩展问中。

本申请实施例提供的知识库中扩展问自动挖掘装置,通过抽取知识库中多条待扩充知识的标准问和初始扩展问;基于标准问获取业务词集,采用业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;基于初始挖掘语料中每条文本与每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;对第一扩展语料进行聚类,获取第二扩展语料;若第二扩展语料不在初始扩展问中,则将第二扩展语料加入待扩充知识的扩展问中。本申请实施例通过自动挖掘扩展问,避免人工编写,提高了扩展问的质量,丰富了扩展问的语义类型,从而提高智能问答的时效性和准确率,以及提升用户体验。

在一个实施例中,第一扩展语料获取模块403具体用于:

将所述初始挖掘语料输入至神经网络模型,获取所述神经网络模型输出的所述初始挖掘语料中每条文本的第一语义向量;

获取所述每条文本的第一语义向量与所述每条待扩充知识的中心语义向量的第一语义相似度;

选取所述第一语义相似度大于第一设定阈值的文本数据,构建所述第一扩展语料。

在一个实施例中,第一扩展语料获取模块403具体用于:

将所述待扩充知识输入所述神经网络模型,获取所述神经网络模型输出的所述标准问的语义向量和所述初始扩展问的语义向量;

基于所述标准问的语义向量和权重、所述初始扩展问的语义向量、权重和数量,获取所述待扩充知识的中心语义向量;

若所述待扩充知识包括标准问,则获取所述待扩充知识的中心语义向量,包括:

将所述待扩充知识输入所述神经网络模型,获取所述神经网络模型输出的所述标准问的语义向量;

将所述标准问的语义向量,作为所述待扩充知识的中心语义向量。

在一个实施例中,第二扩展语料获取模块404具体用于:

对所述第一扩展语料进行聚类,得到聚类结果;

基于所述聚类结果,获取每个聚类簇的聚类中心句,并确定所述聚类中心句的第二语义向量;

基于所述第二语义向量大于第二设定阈值的聚类簇中的所有文本,构建候选扩展语料;

基于所述候选扩展语料的第二语义相似度,选取至少一个所述候选扩展语料作为所述第二扩展语料。

在一个实施例中,第二扩展语料获取模块404具体用于:

获取初始聚类簇中各数据与所述初始聚类簇的簇中心的距离的平均值;

若所述平均值大于或等于第三设定阈值,且当前聚类迭代不是最后一次迭代,则更新所述初始聚类簇的数据;

若所述平均值小于第三设定阈值,且当前聚类迭代不是最后一次迭代,则将所述初始聚类簇内的数据作为下一次循环迭代的数据;

若所述平均值大于或等于第三设定阈值,或者当前聚类迭代是最后一次迭代,则停止聚类,得到所述聚类结果。

在一个实施例中,筛选模块402具体用于:

获取用户交互的日志数据;

去除所述日志数据中的长短句、非业务话术、超低频话术以及无实际含义的字母,数字和符号,以构建所述挖掘语料。

在一个实施例中,筛选模块402具体用于:

抽取所述标准问中的业务词;

获取与所述业务词关联的目标业务词,基于所述业务词与所述目标业务词,获取所述每条待扩充知识的业务词集。

图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communication Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的计算机程序,以执行知识库中扩展问自动挖掘方法的步骤,例如包括:

抽取知识库中多条待扩充知识的标准问和初始扩展问;

基于所述标准问获取业务词集,采用所述业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;

基于所述初始挖掘语料中每条文本与所述每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;

对所述第一扩展语料进行聚类,获取第二扩展语料;

若所述第二扩展语料不在所述初始扩展问中,则将所述第二扩展语料加入所述待扩充知识的扩展问中。

此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的知识库中扩展问自动挖掘方法的步骤,例如包括:

抽取知识库中多条待扩充知识的标准问和初始扩展问;

基于所述标准问获取业务词集,采用所述业务词集对挖掘语料进行筛选,得到每条待扩充知识的初始挖掘语料;

基于所述初始挖掘语料中每条文本与所述每条待扩充知识的中心语义向量的第一语义相似度,获取第一扩展语料;

对所述第一扩展语料进行聚类,获取第二扩展语料;

若所述第二扩展语料不在所述初始扩展问中,则将所述第二扩展语料加入所述待扩充知识的扩展问中。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号