首页> 中国专利> 知识处理方法、装置、计算机可读存储介质以及处理器

知识处理方法、装置、计算机可读存储介质以及处理器

摘要

本发明公开了一种知识处理方法、装置、计算机可读存储介质以及处理器。其中,该方法包括:获取业务关键词词典;确定知识库中的待优化知识,其中,待优化知识至少包括:问法相同且对应不同关键词的扩展问;依据业务关键词词典对待优化知识进行处理,得到优化后的知识。本发明解决了相关技术中的知识库过于臃肿,造成后期优化维护成本增加、维护难度增大,同时问答响应性能下降的技术问题。

著录项

  • 公开/公告号CN112651233A

    专利类型发明专利

  • 公开/公告日2021-04-13

    原文格式PDF

  • 申请/专利权人 北京捷通华声科技股份有限公司;

    申请/专利号CN202011511836.X

  • 发明设计人 李健;刘光华;武卫东;陈明;

    申请日2020-12-18

  • 分类号G06F40/242(20200101);G06F16/31(20190101);G06F16/332(20190101);G06F16/35(20190101);

  • 代理机构11240 北京康信知识产权代理有限责任公司;

  • 代理人曾红芳

  • 地址 100193 北京市海淀区东北旺西路8号中关村软件园2号楼A座一层2101

  • 入库时间 2023-06-19 10:35:20

说明书

技术领域

本发明涉及智能客服领域,具体而言,涉及一种知识处理方法、装置、计算机可读存储介质以及处理器。

背景技术

目前的许多智能客服项目,为了提升当前知识库在实际应用中的准确率,往往会添加很多扩展问,但不适当的增加过多问法相似扩展问,会造成知识库过于臃肿,后期优化维护成本增加、维护难度增大,同时问答响应性能下降。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种知识处理方法、装置、计算机可读存储介质以及处理器,以至少解决相关技术中的知识库过于臃肿,造成后期优化维护成本增加、维护难度增大,同时问答响应性能下降的技术问题。

根据本发明实施例的一个方面,提供了一种知识处理方法,包括:获取业务关键词词典;确定知识库中的待优化知识,其中,所述待优化知识至少包括:问法相同且对应不同关键词的扩展问;依据所述业务关键词词典对所述待优化知识进行处理,得到优化后的知识。

可选地,在获取业务关键词词典之前,所述方法还包括:获取目标文件;提取所述目标文件的业务关键词;对所述业务关键词进行聚类处理,生成业务关键词词典。

可选地,所述目标文件包括以下至少之一:业务文档、对话记录。

可选地,确定知识库中的待优化知识包括:检测所述知识库内的扩展问;对所述知识库内的扩展问进行聚类处理,得到问法相同且对应不同关键词的扩展问;确定所述问法相同且对应不同关键词的扩展问为所述待优化知识。

可选地,依据所述业务关键词词典对所述待优化知识进行处理,得到优化后的知识包括:使用所述业务关键词词典中的业务关键词替换所述待优化知识中的关键词,生成所述优化后的知识。

可选地,在依据所述业务关键词词典对所述待优化知识进行处理,得到优化后的知识之后,所述方法还包括:依据所述优化后的知识更新所述知识库。

根据本发明实施例的另一方面,还提供了一种知识处理装置,包括:第一获取模块,用于获取业务关键词词典;确定模块,用于确定知识库中的待优化知识,其中,所述待优化知识至少包括:问法相同且对应不同关键词的扩展问;处理模块,用于依据所述业务关键词词典对所述待优化知识进行处理,得到优化后的知识。

可选地,所述装置还包括:第二获取模块,用于在获取业务关键词词典之前,获取目标文件;提取模块,用于提取所述目标文件的业务关键词;生成模块,用于对所述业务关键词进行聚类处理,生成业务关键词词典。

根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的知识处理方法。

根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的知识处理方法。

在本发明实施例中,采用获取业务关键词词典;确定知识库中的待优化知识,其中,所述待优化知识至少包括:问法相同且对应不同关键词的扩展问;依据所述业务关键词词典对所述待优化知识进行处理,得到优化后的知识,通过业务关键词词典对待优化知识进行处理,从而得到优化后的知识,达到了优化知识库中待优化知识的目的,从而实现了在不降低准确率的基础上,有效的精简知识库的技术效果,进而解决了相关技术中的知识库过于臃肿,造成后期优化维护成本增加、维护难度增大,同时问答响应性能下降的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的知识处理方法的流程图;

图2是根据本发明实施例的知识处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述,下面对本发明中出现的部分名词或术语进行详细说明。

知识库:特指智能客服领域的知识库,该知识库通常由多条经常问到的问题(Frequently Asked Questions,简称为FAQ)知识组成,每条知识由一条标准问、多条扩展问及对应的答案组合构成。

实施例1

根据本发明实施例,提供了一种知识处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的知识处理方法的流程图,如图1所示,该知识处理方法包括如下步骤:

步骤S102,获取业务关键词词典;

上述业务关键词词典包括多个不同类型的业务关键词。

步骤S104,确定知识库中的待优化知识,其中,待优化知识至少包括:问法相同且对应不同关键词的扩展问;

由于知识库中的知识包括至少一个扩展问,可以将问法相同且对应不同关键词的扩展问关联的知识定义为待优化知识。需要说明的是,对待优化知识的相应处理是精简知识库的关键。

步骤S106,依据业务关键词词典对待优化知识进行处理,得到优化后的知识。

需要说明的是,上述知识处理方法不仅可以应用于智能客服,还可以应用于需要问答的其他场景中。

通过上述步骤,可以首先获取业务关键词词典,其次确定知识库中的待优化知识,其中,待优化知识至少包括:问法相同且对应不同关键词的扩展问,进而依据业务关键词词典对待优化知识进行处理,得到优化后的知识,也即是通过业务关键词词典对待优化知识进行处理,从而得到优化后的知识,达到了优化知识库中待优化知识的目的,从而实现了在不降低准确率的基础上,有效的精简知识库的技术效果,进而解决了相关技术中的知识库过于臃肿,造成后期优化维护成本增加、维护难度增大,同时问答响应性能下降的技术问题。

可选地,在获取业务关键词词典之前,上述方法还包括:获取目标文件;提取目标文件的业务关键词;对业务关键词进行聚类处理,生成业务关键词词典。

作为一种可选的实施例,上述目标文件包括但不限于业务文档、对话记录。上述业务关键词词典是多个业务关键词的聚类结果,其中,业务关键词既可以是全称,也可以是简称。在具体实施过程中,首先需要获取业务文档和/或对话记录,再提取业务文档和/或对话记录的业务关键词,进而对这些业务关键词进行聚类,形成业务关键词词典。需要说明的是,上述对业务关键词进行聚类处理可以采用word2vec的方式,也就是,基于word2vec的方式对业务关键词进行聚类处理。当然,在具体实施过程中,对于业务关键词的聚类处理还可以在用K-Means聚类的方式等等,在这里不再一一赘述。

可选地,上述目标文件包括以下至少之一:业务文档、对话记录。

可选地,确定知识库中的待优化知识包括:检测知识库内的扩展问;对知识库内的扩展问进行聚类处理,得到问法相同且对应不同关键词的扩展问;确定问法相同且对应不同关键词的扩展问为待优化知识。

作为一种可选的实施例,知识库内的包括多个知识,每个知识对应有至少一个扩展问。在具体实施过程中,可以检测并聚类知识库内的扩展问,将问法相同且对应不同关键词的扩展问作为待优化知识。通过上述实施方式,可以快速、精准的得到知识库中的待优化知识。

作为一种可选的实施例,对现有知识库内的扩展问进行检测并聚类,针对聚类结果中问法相同只是关键词不同的扩展问,单独聚类给出并给出对应的业务关键词,以提供优化建议。

作为一种可选的实施例,对知识库内的扩展问进行聚类处理可以采用多种方式,其中,可以采用的聚类方法包括但不限于K-Means聚类,均值漂移聚类,基于密度的聚类,用高斯混合模型的最大期望聚类,凝聚层次聚类,图团体检测等。在具体实施过程中,可以采用其中一种或者几种聚类方法相结合的形式,在此不作任何限定。

可选地,依据业务关键词词典对待优化知识进行处理,得到优化后的知识包括:使用业务关键词词典中的业务关键词替换待优化知识中的关键词,生成优化后的知识。

作为一种可选的实施例,在优化知识库中知识的过程中,可以使用业务关键词词典中的业务关键词替换待优化知识中的关键词。例如,待优化知识中包括多个不同的关键词,可以使用业务关键词词典中的一个业务关键词统一替换多个不同的关键词,从而实现优化待优化知识的目的。另外,由于优化后的知识仍为知识库中的知识,进而优化知识也就相当于优化知识库。

可选地,在依据业务关键词词典对待优化知识进行处理,得到优化后的知识之后,上述方法还包括:依据优化后的知识更新知识库。

作为一种可选的实施例,在基于业务关键词词典对待优化知识进行优化处理以后,得到优化后的知识,进而再利用优化后的知识不断更新知识库。

作为一种可选的实施例,可以采用多种方式依据优化后的知识更新知识库,例如,可以利用优化后的知识实时更新知识库,也可以利用优化后的知识按照预设时间间隔更新知识库。在具体实施过程中,可以根据具体应用场景而灵活设定。

需要说明的是,通过上述方式更新知识库,可以利用优化后的知识不断的精简知识库。

作为一种可选的实施例,可从业务文档或对话记录中进行自动提取业务关键词(包含全称及简称),并进行聚类输出,生成一个个的业务关键词词典。之后再对现有知识库内的扩展问进行检测并聚类,针对聚类结果中问法相同只是关键词不同的扩展问,可统一用业务关键词词典进行替换,从而自动精简并优化知识库。

实施例2

根据本发明实施例的另一方面,还提供了一种知识处理装置,图2是根据本发明实施例的知识处理装置的示意图,如图2所示,该知识处理装置包括:第一获取模块22、确定模块24和处理模块26。下面对该知识处理装置进行详细说明。

第一获取模块22,用于获取业务关键词词典;确定模块24,连接至上述第一获取模块22,用于确定知识库中的待优化知识,其中,待优化知识至少包括:问法相同且对应不同关键词的扩展问;处理模块26,连接至上述确定模块24,用于依据业务关键词词典对待优化知识进行处理,得到优化后的知识。

在上述实施方式中,首先利用第一获取模块22获取业务关键词词典,其次利用确定模块24确定知识库中的待优化知识,其中,待优化知识至少包括:问法相同且对应不同关键词的扩展问,进而利用处理模块26依据业务关键词词典对待优化知识进行处理,得到优化后的知识,也即是通过业务关键词词典对待优化知识进行处理,从而得到优化后的知识,达到了优化知识库中待优化知识的目的,从而实现了在不降低准确率的基础上,有效的精简知识库的技术效果,进而解决了相关技术中的知识库过于臃肿,造成后期优化维护成本增加、维护难度增大,同时问答响应性能下降的技术问题。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。

此处需要说明的是,上述第一获取模块22、确定模块24和处理模块26对应于实施例1中的步骤S102至S106,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

可选地,上述装置还包括:第二获取模块,用于在获取业务关键词词典之前,获取目标文件;提取模块,用于提取目标文件的业务关键词;生成模块,用于对业务关键词进行聚类处理,生成业务关键词词典。

可选地,上述目标文件包括以下至少之一:业务文档、对话记录。

可选地,上述确定模块24包括:检测单元,用于检测知识库内的扩展问;聚类单元,用于对知识库内的扩展问进行聚类处理,得到问法相同且对应不同关键词的扩展问;确定单元,用于确定问法相同且对应不同关键词的扩展问为待优化知识。

可选地,上述处理模块26包括:生成单元,用于使用业务关键词词典中的业务关键词替换待优化知识中的关键词,生成优化后的知识。

可选地,上述装置还包括:更新模块,其中,上述更新模块用于在依据业务关键词词典对待优化知识进行处理,得到优化后的知识之后,依据优化后的知识更新知识库。

实施例3

根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述中任意一项的知识处理方法。

可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述计算机可读存储介质包括存储的程序。

可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:获取业务关键词词典;确定知识库中的待优化知识,其中,待优化知识至少包括:问法相同且对应不同关键词的扩展问;依据业务关键词词典对待优化知识进行处理,得到优化后的知识。

实施例4

根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述中任意一项的知识处理方法。

本发明实施例提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取业务关键词词典;确定知识库中的待优化知识,其中,待优化知识至少包括:问法相同且对应不同关键词的扩展问;依据业务关键词词典对待优化知识进行处理,得到优化后的知识。

本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取业务关键词词典;确定知识库中的待优化知识,其中,待优化知识至少包括:问法相同且对应不同关键词的扩展问;依据业务关键词词典对待优化知识进行处理,得到优化后的知识。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号