首页> 中国专利> 数据处理方法及装置、数据查询方法及装置

数据处理方法及装置、数据查询方法及装置

摘要

本说明书实施例提供数据处理方法及装置,其中,所述数据处理方法应用于数据管理平台,包括对获取的多个文本数据进行预处理,并基于预处理后的所述多个文本数据之间的相似度,将所述多个文本数据划分为至少一种类型;确定每种类型的文本数据的目标问题、目标答案以及与所述目标问题关联的扩展问题;确定所述目标问题在数据存储平台对应的数据库,并将所述目标问题、所述目标答案以及所述扩展问题存储至对应的数据库;获取所有数据库中相同的目标问题,并将所述相同的目标问题关联的不同扩展问题进行数据库共享。

著录项

  • 公开/公告号CN113076423A

    专利类型发明专利

  • 公开/公告日2021-07-06

    原文格式PDF

  • 申请/专利权人 支付宝(杭州)信息技术有限公司;

    申请/专利号CN202110435850.4

  • 申请日2021-04-22

  • 分类号G06F16/35(20190101);G06F16/31(20190101);G06F16/332(20190101);

  • 代理机构11637 北京智信禾专利代理有限公司;

  • 代理人吴肖肖

  • 地址 310013 浙江省杭州市西湖区西溪路556号8层B段801-11

  • 入库时间 2023-06-19 11:44:10

说明书

技术领域

本说明书实施例涉及计算机技术领域,特别涉及一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据查询方法,一种数据处理装置,一种计算设备,以及一种计算机可读存储介质。

背景技术

随着智能聊天机器人的普及,越来越多的项目场景通过聊天机器人解答客户售前、售后等环节的问题,以提升购买转化率与用户满意度。而在聊天机器人应用中,知识库是其中重要的模块,知识库的结构化程度以及内容质量决定着对用户需求检索的准确性及回答质量的高低。但随着项目场景的增多,会使得知识库变得庞大复杂,后期维护困难。

发明内容

有鉴于此,本说明书施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据查询方法,一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面,提供了一种数据处理方法,应用于数据管理平台,包括:

对获取的多个文本数据进行预处理,并基于预处理后的所述多个文本数据之间的相似度,将所述多个文本数据划分为至少一种类型;

确定每种类型的文本数据的目标问题、目标答案以及与所述目标问题关联的扩展问题;

确定所述目标问题在数据存储平台对应的数据库,并将所述目标问题、所述目标答案以及所述扩展问题存储至对应的数据库;

获取所有数据库中相同的目标问题,并将所述相同的目标问题关联的不同扩展问题进行数据库共享。

根据本说明书实施例的第二方面,提供了一种数据查询方法,应用于数据查询平台,包括:

接收客户端发送的、携带有文本问题的数据查询请求;

基于所述数据查询请求对所述文本问题进行预处理,确定所述文本问题在数据存储平台对应的数据库;

从与所述文本问题对应的数据库中,获取与所述文本问题对应的多个文本答案;并从所述多个文本答案中确定与所述文本问题对应的目标文本答案,其中,所述数据存储平台为权利要求1中的数据存储平台。

根据本说明书实施例的第三方面,提供了一种数据处理装置,包括:

预处理模块,被配置为对获取的多个文本数据进行预处理,并基于预处理后的所述多个文本数据之间的相似度,将所述多个文本数据划分为至少一种类型;

问题确定模块,被配置为确定每种类型的文本数据的目标问题、目标答案以及与所述目标问题关联的扩展问题;

存储模块,被配置为确定所述目标问题在数据存储平台对应的数据库,并将所述目标问题、所述目标答案以及所述扩展问题存储至对应的数据库;

共享模块,被配置为获取所有数据库中相同的目标问题,并将所述相同的目标问题关联的不同扩展问题进行数据库共享。

根据本说明书实施例的第四方面,提供了一种数据查询装置,包括:

请求接收模块,被配置为接收客户端发送的、携带有文本问题的数据查询请求;

预处理模块,被配置为基于所述数据查询请求对所述文本问题进行预处理,确定所述文本问题在数据存储平台对应的数据库;

答案确定模块,被配置为从与所述文本问题对应的数据库中,获取与所述文本问题对应的多个文本答案;并从所述多个文本答案中确定与所述文本问题对应的目标文本答案,其中,所述数据存储平台为上述数据处理方法中的数据存储平台。

根据本说明书实施例的第五方面,提供了一种计算设备,包括:

存储器和处理器;

所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据处理方法或者上述数据查询方法的步骤。

根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据处理方法或者上述数据查询方法的步骤。

本说明书一个实施例实现了一种数据处理方法及装置,其中,所述数据处理方法应用于数据管理平台,包括对获取的多个文本数据进行预处理,并基于预处理后的所述多个文本数据之间的相似度,将所述多个文本数据划分为至少一种类型;确定每种类型的文本数据的目标问题、目标答案以及与所述目标问题关联的扩展问题;确定所述目标问题在数据存储平台对应的数据库,并将所述目标问题、所述目标答案以及所述扩展问题存储至对应的数据库;获取所有数据库中相同的目标问题,并将所述相同的目标问题关联的不同扩展问题进行数据库共享。具体的,所述数据处理方法通过对不同领域的多个文本数据进行处理,将处理后的多个文本数据按照目标问题存储到不同的数据库中,并且将所有数据库中相同的目标问题中的不同扩展问题扩散性地克隆到其他数据库中,保证数据统一管理,降低后期维护成本。

附图说明

图1是本说明书一个实施例提供的一种数据处理方法的具体应用框架示意图;

图2是本说明书一个实施例提供的一种数据处理方法的流程图;

图3是本说明书一个实施例提供的一种数据查询方法的流程图;

图4是本说明书一个实施例提供的一种数据处理装置的结构示意图;

图5是本说明书一个实施例提供的一种数据查询装置的结构示意图;

图6是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先,对本说明书一个或多个实施例涉及的名词术语进行解释。

知识库:项目知识点的问答集合,服务于聊天机器人对话过程。

语言模型:用于计算句子概率的模型,通过语言模型计算得出的结果可用于判断语句的通顺程度,计算所得概率越小的语句越不可能出现。

文本生成:文本的自动撰写。

领域:将项目场景看作单个领域,其中,项目场景可以理解为保险领域中的人寿保险、养老保险等。

结构化:数据标准化的一种方式,是能够用数据或统一的结构加以表示的信息,如数字、符号、文本元素。

在本说明书中,提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据查询方法,一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。

现有技术中,服务于智能聊天机器人的知识库中,相同知识点下的相似问题会因项目领域的不同,需要重复添加;并且不同项目领域下相同的知识点的相似问法各异,没有统一管理;在后期基于知识库进行问答检索时,只能进行单线程的全库召回,效率和准确率不高。

参见图1,图1示出了根据本说明书一个实施例提供的一种数据处理方法的具体应用框架示意图。

图1中包括知识工厂102,知识库104,检索中心106以及交互界面108;其中,知识工厂102可以理解为下述实施例中的数据管理平台,知识库104可以理解为下述实施例中的数据存储平台,检索中心106可以理解为下述实施例中的数据查询平台,交互界面108可以理解为下述实施例中的客户端的用户交互界面。

具体的,知识工厂102包括数据中心、质检模块、管理模块,其中,数据中心包含了在线数据源和离线数据源两部分,在线数据源包括用户与聊天机器人的对话内容、用户发表的文字评论等用户交互文本信息等,离线数据源包括从公开数据集(如公开文章)、相关合作内容生产方等渠道获取的文本信息等。质检模块对于数据中心的数据进行质量检测,通过规则过滤、语句评分、情感分析以及知识聚类等方式对于数据进行把控与知识点生产。尤其对于金融领域知识,对C端(C端对应的是个人)用户透出的信息需要极高的质量管控,通过质量模块对数据进行质量把控,可以避免人工审核,降低人工成本,并且可以保证数据的安全性。管理模块对质检模块处理后的数据进行领域识别、知识点识别、知识点扩充以及多库传播等。

其中,质检模块中的规则过滤,可以理解为通过预先定义的规则,过滤掉不符合项目预期的语料,如乱码数据、过短文本、符合特定句法结构或句法成分过于复杂的句子等;语句评分,可以理解为通过语言模型对于语句进行评分,通过设置分数阈值过滤语句不通顺的数据;情感分析,可以理解为分析文本的情感,判断出文本语料的正向、负向情绪以及包含敏感词检测。对于负向情绪以及敏感词进行数据回流时需进行把控,去除某些不符合项目预期的负面数据以及包含敏感词的数据;知识聚类,可以理解为将语义相似的文本进行聚合,进行知识点的归纳总结。例如提取文本中的问答对,将语义相似的问答对进行聚合,然后为聚合后的问答对提取出标准问题以及标准答案。

管理模块中的领域识别,可以理解为通过文本分类、关键词抽取等方式,识别出知识点所包含的领域,例如养老保险领域、健康保险领域等;知识点识别,可以理解为对于质检模块中归纳出的知识点(如标准问题),通过相似度分析,判断该知识点是否存在于对应领域中,如果已经存在,进行知识点链接;如果不存在,则进行知识点新增;知识点扩充,可以理解为通过文本生成的方式,对于知识点的相似问法进行扩充,提升数据的丰富程度,结合情感分析技术,生成可控文本内容,提升生成文本质量;多库传播,可以理解为在进行分层知识库管理时,同一个知识点会有不同的相似问法,如果在不同领域中,相同的知识点的相似问法各异,后期在检索中心进行召回和精排操作时都会遇到问题,多库传播的作用,就是将同一知识点下的不同相似问法扩散性的克隆到其他领域知识库中,以保证数据统一管理。

知识库104的结构化通过分层形式存储,从知识工厂102中回流知识点,知识库为了能够满足不同项目场景咨询的客户需求,对各个项目领域的知识点进行分层管理。主要的结构包括平台知识库、领域知识库以及知识点。在具体应用场景中,还可以针对领域知识库按需再细分,例如领域知识库可以为金融领域知识库、通信领域知识库,又可以是金融领域知识库中的保险领域知识库、银行领域知识库,还可以是保险领域知识库中的养老保险知识库、健康保险知识库等。

其中,知识库104中的平台知识库可以理解为平台入口,平台知识库下会有多个领域知识库,每个领域知识库下会有多个知识点,每个知识点下包含多个与该知识点相关的提问方式。领域知识库中包括不同项目领域的问题集合,在领域知识库中存储的知识点,都无需带上项目关键词,例如养老、健康等关键词。在不同的领域知识库中,可能包含相同的知识点,例如图1中的领域知识库1和领域知识库2中均包含相同的知识点A。实际应用中,领域知识库中相同知识点下的相似问题集合保持一致。知识点是存储在知识库104的最小单元,同一知识点下,会有不同的相似问题,后续针对用户问题检索时,会根据检索条件,召回特定领域知识点中的相似问法。在进行精排后,输出给用户的是经过处理的知识点,知识点存储无需带上项目关键词。

检索中心106主要是与用户交互界面108以及知识库104进行交互,检索中心106从用户交互界面108接收用户发送的问题,在知识库104中进行查询,并且将处理后的结果(即答案)返回给用户。检索中心106主要包含了如下六大子模块:领域识别、多库召回、问答清洗、知识精排、权重调整以及知识消歧等模块。其中,领域识别子模块的作用是为了进行项目领域的识别,通过文本分类、关键词匹配等方式,将用户咨询的问题分配到合适的领域;多库召回子模块的作用是,如果在领域识别子模块中精确地识别到了具体的领域,则从对应的领域知识库中召回相似的问题,如果没有在识别到具体的领域,则从所有知识库中召回相似的问题,因知识库已经进行分层操作,在多库召回子模块可并行操作,提升召回效率;问答清洗子模块主要对于用户咨询的问题进行前处理,包含去除特殊字符、同义词替换、去除标点、脏数据过滤等功能;知识精排子模块,对于从知识库中召回的答案进行精细化排序,将问答清洗子模块处理后的用户问题与召回的答案进行语义相似度的计算,并且输出相似度评分;权重调整子模块,对于用户咨询的问题,可能有多个匹配答案。但是实际应用中,商家在进行对话时会有策略性的进行话术选择,即对于某些答案更具倾向性,或者对于某些答案更不想展示给用户。权重调整子模块的作用就是针对不同的精排子模块的结果进行后处理调整。采用的方法可以有关键词匹配、规则过滤等;知识消歧子模块,不同知识库中可能包含相同的知识点,在返回给用户进行展示时需要进行消歧操作,主要的消歧方法为带上库名称,如“库名-知识点”。例如用户咨询保险是什么,那么可能健康保险和养老保险都会给出标准答案,为了提升用户体验,则带上各自数据库的名称和标准回答,返回给用户:健康险领域-保险是***以及养老险领域-保险是***等。

交互界面108主要是为用户进行问题咨询的入口,主要分为平台入口以及各项目领域入口。用户从不同的入口进入,即使咨询相同的问题,也会得到属于当前入口具有差异性的回答结果,以增加本说明书实施例的个性化能力,提升用户体验。

本说明书实施例中,精细化设计了“知识工厂”模块,能够从不同数据源中自动化对数据源进行质量检测以及知识回流。支持相似问法多库传播以保证知识库统一;在“知识库”模块,通过知识库分层设计,满足不同项目领域对于相同知识点的管理,降低后期维护成本;在“检索中心”模块,通过领域识别、多库召回、知识消歧等功能点,可支持并行地从各领域知识库索引,提升检索完整性与检索效率;本说明书实施例通过将结构化问答各技术点整合为一体化智能解决方案,亦支持每个模块的插件化调用,使方案可以灵活移植到各个项目中。

参见图2,图2示出了根据本说明书一个实施例提供的一种数据处理方法的流程图,其中,所述数据处理方法应用于数据管理平台,具体包括以下步骤。

步骤202:对获取的多个文本数据进行预处理,并基于预处理后的所述多个文本数据之间的相似度,将所述多个文本数据划分为至少一种类型。

其中,数据管理平台可以理解为上述的知识工厂。

具体的,所述对获取的多个文本数据进行预处理之前,还包括:

获取多个在线文本数据和多个离线文本数据,基于所述多个在线文本数据和所述多个离线文本数据形成多个文本数据。

其中,在线文本数据可以理解为用户与聊天机器人的对话内容,用户发表的文本评论等用户交互信息。离线文本数据可以理解为从公开数据集、相关合作内容生产方等渠道获取的信息,例如文章、内容简介等。并且在线文本数据和离线文本数据不限制于任何领域的文本数据,例如保险领域、交通领域以及银行领域等。

本说明书实施例中,在进行数据分库之前,获取不同领域的在线以及离线文本数据,以提高文本数据领域以及内容的丰富程度,使得后续数据库中可以包含丰富的文本数据。

具体实施时,所述对获取的多个文本数据进行预处理,包括:

根据预设过滤规则对获取的多个文本数据进行规则过滤;

根据语句评分规则对通过规则过滤后的多个文本数据进行语句过滤;

根据情感分析规则对通过语句过滤后的多个文本数据进行情感过滤。

其中,预设过滤规则,语句评分规则以及情感分析规则可以根据实际需求进行设置,本说明书实施例对此不做任何限定。

具体的,预设过滤规则可以理解为乱码数据过滤规则、过短文本过滤规则、过长文本过滤规则、特定句法结构过滤规则或者句法成分过滤规则等等。

根据预设过滤规则对获取的多个文本数据进行规则过滤,可以理解为,将获取的多个文本数据中包含多个乱码数据的文本数据进行删除,对文本过短的文本数据进行删除,对文本过长的文本数据进行删除,将符合特定句法结构的文本数据进行删除,和/或对句法成本过于复杂的文本数据进行删除。

例如,将获取的多个文本数据中包含30个乱码数据的文本数据进行删除,对文本字符小于3个的文本数据进行删除,对文本字符大于100个的文本数据进行删除,对包含公式的文本数据进行删除,和/或对包含特殊符号的文本数据进行删除等。

本说明书实施例中,通过预设过滤规则,语句评分规则以及情感分析规则等方式对文本数据的质量进行把控,以保证后续存储入数据库的文本数据的质量。

此外,所述根据语句评分规则对通过规则过滤后的多个文本数据进行语句过滤,包括:

将通过规则过滤后的多个文本数据输入语言模型,获得规则过滤后的多个文本数据中每个文本数据的语句得分;

从规则过滤后的多个文本数据中,删除语句得分小于等于预设得分阈值的文本数据。

其中,根据语句评分规则对通过规则过滤后的多个文本数据进行语句过滤,可以理解为通过预先训练的语言模型对通过规则过滤后的多个文本数据进行语句过滤。

具体的,可以将通过规则过滤后的多个文本数据中的每个文本数据输入语言模型,获得规则过滤后的多个文本数据中每个文本数据的语句得分,从规则过滤后的多个文本数据中,删除语句得分小于等于预设得分阈值的文本数据,其中,预设得分阈值可以根据实际应用进行设置,例如预设得分阈值可以设置为50、60等。

本说明书实施例中,通过语言模型对通过规则过滤后的多个文本数据中的每个文本数据进行评分,以实现通过每个文本数据的得分,可以快速的过滤掉语句不通顺的文本数据,保证后期存储至数据库的文本数据的质量。

并且,所述根据情感分析规则对通过语句过滤后的多个文本数据进行情感过滤,包括:

获取通过语句过滤后的多个文本数据中每个文本数据的语料情绪以及敏感词;

从通过语句过滤后的多个文本数据中,删除语料情绪满足预设情绪阈值或者包含敏感词的文本数据。

其中,预设情绪阈值以及敏感词均可以根据实际应用进行设置,本说明书对此不做任何限定。

具体的,在通过语言模型对通过规则过滤后的多个文本数据进行过滤后,为了进一步的提高文本数据的质量,再获取通过语句过滤后的多个文本数据中每个文本数据的语料情绪以及敏感词,从通过语句过滤后的多个文本数据中,删除语料情绪满足预设情绪阈值或者包含敏感词的文本数据。其中,语料情绪可以通过预先训练的预料情绪识别模型获得,而敏感词则可以根据实际的项目需求设定,例如设置一些暴力的、带有色彩的词语作为敏感词。

实际应用中,先对通过语句过滤后的多个文本数据中每个文本数据的语料情绪进行分析,以判断每个文本数据的正向或者负向情绪,对于包含负向情绪的文本数据进行删除;同时,提取通过语句过滤后的多个文本数据中每个文本数据的敏感词,将包含敏感词的文本数据进行删除。其中,包含负向情绪的文本数据可以理解为包含不符合项目预期的负面数据的文本数据,例如项目为保险项目,文本数据为“这个保险项目特别差”,此时,该文本数据则为包含负向情绪的文本数据。

本说明书实施例中,通过语料情绪以及敏感词对通过语句过滤后的多个文本数据进行情感过滤,过滤掉语句中包含负向情绪以及敏感词的文本数据,以保证后期存储至数据库的文本数据的质量。

具体实施时,在对获取的多个文本数据进行预处理之后,基于预处理后的多个文本数据之间的相似度,将多个文本数据划分为至少一种类型。即将预处理后的多个文本数据按照语义相似程度进行聚合,以及进行知识点的归纳总结。

例如文本数据包括:转人工、咨询人工客服、帮忙联系人工服务、保险是什么,此时根据语义相似程序进行聚合之后,可以将转人工、咨询人工客服、帮忙联系人工服务聚合在一起,划分为一个类型,并对其进行知识点的归纳总结,即知识点为人工客服咨询。

实际应用中,可以从文本数据中抽取问答对,然后将语义相似的问答对聚合在一起,再对聚合在一起的每一类文本数据进行知识点的归纳总结,即基于每一类的文本数据总结一个标准问题,并基于该标准问题以及与该标准问题相似的其他文本问题总结一个标准答案。

步骤204:确定每种类型的文本数据的目标问题、目标答案以及与所述目标问题关联的扩展问题。

具体的,可以对每种类型的文本数据进行归纳总结,以确定每种类型的文本数据的目标问题、目标答案以及与该目标问题关联的扩展问题(如与目标问题相似的扩展问题)。

步骤206:确定所述目标问题在数据存储平台对应的数据库,并将所述目标问题、所述目标答案以及所述扩展问题存储至对应的数据库。

其中,数据库可以理解为领域数据库,即每个数据库对应一个领域,例如金融领域、保险领域、交通领域等;又或者是某个项目下面的领域,例如项目为保险,领域可以理解为人寿保险领域、儿童保险领域以及养老保险领域等。而数据存储平台可以理解为上述实施例的知识库104。

具体的,所述基于确定所述目标问题在数据存储平台对应的数据库,包括:

通过对所述目标问题的文本处理确定所述目标问题对应的领域;

基于所述目标问题对应的领域确定所述目标问题对应的数据库领域,并基于所述数据库领域确定所述目标问题在数据存储平台对应的数据库。

其中,目标问题可以理解为上述实施例的知识点。

实际应用中,在基于确定所述目标问题在数据存储平台对应的数据库时,首先确定每种类型的文本数据的目标问题,然后通过文本分类、关键词抽取等文本处理方式,识别出该目标问题对应的领域,从而基于目标问题对应的领域确定该目标问题在数据存储平台对应的数据库领域;最后,基于每种类型的文本数据的目标问题对应的领域,确定每种类型的文本数据的目标问题对应的领域数据库。

本说明书实施例中,目标问题可以理解为基于每种类型的文本数据进行归纳总结后的知识点。在确定每种类型的文本数据的目标问题对应的领域数据库之后,则可以将每种类型的文本数据的目标问题准确的存储至对应的领域数据库中,后续可以基于用户的该目标问题从对应的领域数据库中快速的获取到该目标问题对应的目标答案返回给用户,提升用户体验。

具体实施时,所述将目标问题、所述目标答案以及所述扩展问题存储至对应的数据库,包括:

判断所述目标问题对应的数据库中是否已经存储所述目标问题,

若是,则将所述目标问题关联的扩展问题存储至对应的数据库,并与所述目标问题进行关联,

若否,则将所述目标问题、所述目标答案以及所述扩展问题存储至对应的数据库。

具体的,一种情况下,目标问题可能已经存在对应的领域数据库中;另一种情况下,目标问题可能不存在对应的领域数据库中。

对于目标问题不存在对应的领域数据库中的情况,可以将每种类型的文本数据的目标问题、目标答案以及与目标问题关联的扩展问题等直接存储至对应的领域数据库即可。对于目标问题已经存在对应的领域数据库中的情况,则可以将目标问题关联的扩展问题存储至对应的领域数据库,以丰富对应的领域数据库中文本问题的丰富程度,保证后续使用时可以对用户的各种文本问题进行解答,提升用户体验。

沿用上例,目标问题:人工客服咨询的知识点已经存在对应的领域数据库中,而该领域数据库中没有与该目标问题关联的扩展问题:帮忙联系人工服务的扩展问题,则将该扩展问题存储至该目标问题对应的领域数据库,并与该目标问题进行关联。

实际应用中,一个目标问题可能对应多个领域,因此会对应多个领域数据库,当某个领域不存在对应数据库的情况下,可以基于领域新建对应的领域数据库,再将其目标问题进行数据库存储。同理,在一个目标问题对应多个领域,存在多个领域数据库的情况下,需要将该目标问题按照上述实施例的存储方式存储至每个领域数据库中,以便于后续检索的时候,可以从任意一个领域的数据库中快速的获取到检索结果。

此外,为了提升存储至领域数据库的目标问题的丰富程度,可以对目标问题进行扩充,具体实现方式如下所述:

所述获取所有数据库中相同的目标问题之前,还包括:

通过预设文本生成方法生成与所述目标问题关联的至少一个目标关联问题;

将所述至少一个目标关联问题存储至所述目标问题对应的数据库中,并与所述目标问题进行关联。

其中,预设文本生成方法可以根据实际需求进行设置,本说明书对此不做任何限定。

例如,目标问题为:保险是什么?通过预设文本生成方法生成的与该目标问题关联的目标关联问题可以是:什么是保险?保险有什么作用?等等。

本说明书实施例中,通过预设文本生成方法生成与所述目标问题关联的至少一个目标关联问题;将所述至少一个目标关联问题存储至所述目标问题对应的数据库中,并与所述目标问题进行关联。通过此种方式可以实现对目标问题的扩充,提升数据的丰富程度,并且还可以结合情感分析技术,生成可控目标关联问题,极大的提升生成目标关联问题的质量。

步骤208:获取所有数据库中相同的目标问题,并将所述相同的目标问题关联的不同扩展问题进行数据库共享。

实际应用中,不同领域中,相同的知识点的相似问法各异,若某个数据库中相同知识点的问法均不相同的话,在后期检索时,用户换一种问法的情况下,可能就无法在数据库中检索到对应的文本答案。为了解决上述问题,可以综合相同知识点的不同文本问题,将其复制到具有相同知识点的每个数据库中,具体实现方式如下所述:

所述将所述相同的目标问题关联的不同扩展问题进行数据库共享,包括:

确定所述相同的目标问题中每个目标问题不存在的扩展问题;

将所述每个目标问题不存在的扩展问题存储至所述每个目标问题对应的数据库,并与所述每个目标问题进行关联。

例如,数据库1和数据库2中均包含目标问题,而目标问题在数据库1的文本问题为:文本问题1、文本问题2,而在数据库2中的文本问题为:文本问题3、文本问题4。这种情况下,则可以将文本问题1、文本问题2复制到数据库2中,与数据库2中的该目标文件关联;同时将文本问题3、文本问题4复制到数据库1中,与数据库1中的该目标文件关联。

具体可以参照上述实施例中的知识库104中的领域知识库1和领域知识库2,具体相同的知识点A,那么该知识点A的扩展问题会在领域知识库1和领域知识库2中均存在。

本说明书实施例中,所述数据处理方法通过对不同领域的多个文本数据进行处理,将处理后的多个文本数据按照目标文本存储到不同的数据库中,并且将所有数据库中相同的目标文本中的不同文本问题扩散性地克隆到其他数据库中,保证数据统一管理,降低后期维护成本。

参见图3,图3示出了本说明书一个实施例提供的一种数据查询方法的流程图,应用于数据查询平台,具体包括以下步骤。

步骤302:接收客户端发送的、携带有文本问题的数据查询请求。

其中,客户端可以理解为上述实施例中的交互界面108;文本问题可以理解为任意一种领域、任意一种类型的文本问题。例如上述实施例中的“保险是什么”的文本问题。

具体的,接收客户端发送的、携带有文本问题的数据查询请求,可以理解为接收用户基于客户端的用户交互界面发送的、携带有文本问题的数据查询请求。

步骤304:基于所述数据查询请求对所述文本问题进行预处理,确定所述文本问题在数据存储平台对应的数据库。

具体的,对所述文本问题进行预处理,可以理解为对用户咨询的文本问题进行前处理,例如去除文本问题中的特殊字符、对文本问题中的同义词进行替换、去除文本问题中的数字、标点符号等、以及对文本问题中的敏感词进行过滤等前处理。

实际应用中,若一个文本问题存在对应多个数据库的情况下,可以从对应的多个数据库的每个数据库中获取对应文本答案。若一个文本问题存在对应一个数据库的情况下,可以直接从对应的数据库获取对应文本答案。若该文本问题不存在对应数据库的情况下,可以从数据存储平台的所有数据库的每个数据库中获取对应文本答案。

具体的,所述确定所述文本问题在数据存储平台对应的数据库,包括:

确定所述文本问题对应的领域,基于所述领域确定所述文本问题在数据存储平台对应的多个数据库。

实际应用中,在对所述文本问题进行预处理之后,首先确定出文本问题对应的领域,然后基于对应的领域确定出文本问题在数据存储平台存在的多个对应数据库。

此外,所述基于所述数据查询请求对所述文本问题进行预处理之后,还包括:

确定所述文本问题在数据存储平台不存在对应的数据库的情况下,从所述数据存储平台的所有数据库中,获取与所述文本问题对应的多个文本答案。

具体的,若文本问题在数据存储平台不存在对应的数据库的情况下,则可以从数据存储平台的所有数据库中,获取与该文本问题对应的多个文本答案,以保证可以给客户端用户返回解决该文本问题的目标答案,提升用户体验。

步骤306:从与所述文本问题对应的数据库中,获取与所述文本问题对应的多个文本答案;并从所述多个文本答案中确定与所述文本问题对应的目标文本答案。

其中,所述数据存储平台为上述数据处理方法中的数据存储平台,即上述实施例中的知识库104。

具体的,所述从与所述文本问题对应的数据库中,获取与所述文本问题对应的多个文本答案,包括:

从与所述文本问题对应的数据库中,确定与所述文本问题对应的扩展问题,并确定每个扩展问题对应的目标答案;

将所有扩展问题对应的目标答案作为与所述文本问题对应的多个文本答案。

具体实施时,在确定文本问题对应的数据库之后,先从每个数据库中获取该文本问题对应的扩展问题,此时,该扩展问题可以包括上述实施例的扩展问题以及目标问题,本说明书实施例中的扩展问题可以理解为与该文本问题相似的、关联的问题。

在获取该文本问题对应的扩展问题之后,获取每个扩展问题对应的目标答案,然后将所有扩展问题对应的目标答案作为该文本问题对应的文本答案,以便可以更加准确的进行后续的目标文本答案抽取。

具体的,所述从所述多个文本答案中确定与所述文本问题对应的目标文本答案,包括:

计算所述多个文本答案中每个文本答案与所述文本问题的语义相似度;

基于所述语义相似度对所述多个文本答案进行排序;

基于预设权重规则对排序后的多个文本答案进行顺序调整,并从调整后的多个文本答案中与所述文本问题对应的目标文本答案。

实际应用中,在确定多个文本问题对应的多个文本答案之后,可以从多个文本答案中确定与所述文本问题对应的目标文本答案,首先计算所述多个文本答案中每个文本答案与所述文本问题的语义相似度,基于所述语义相似度对所述多个文本答案进行排序。

为了进一步的保证目标文本答案的准确性,会基于预设权重规则对排序后的多个文本答案进行顺序调整,然后选取权重值最高的文本答案作为该文本问题对应的目标文本答案。

本说明书另一实施例中,所述从所述多个文本答案中确定与所述文本问题对应的目标文本答案之后,还包括:

确定所述目标文本答案对应的数据库,将所述目标文本答案以及所述目标文本答案对应的数据库的属性信息发送至所述客户端。

实际应用中,检索中心在从数据存储平台获取文本问题对应的目标文本答案时,若文本问题是一个通用的问题,数据存储平台的多个领域数据库中均存在对于该文本问题的回答时,为了保证用户体验,可以给用户提供更加丰富的回答供用户选择,那么在该文本问题对应多个领域数据库返回的目标文本答案的情况下,可以在将每个领域数据库返回的目标文本答案返回至客户端的时候,为每个目标文本答案添加对应领域数据库的库名。

例如文本问题为:保险是什么,该文本问题在养老保险领域数据库、健康保险领域数据库以及儿童保险领域数据库中均存在对应的目标文本答案,那么在将该目标文本答案返回至客户端的时候,可以带上每个领域数据库的库名,例如返回给客户端的目标文本答案为:养老保险-保险是***,健康保险-保险是***;儿童保险-保险是***。

本说明书实施例中,所述数据查询方法可以通过领域识别、多库召回、知识消歧等功能点,可支持并行地从各领域知识库中获取到文本问题对应的目标文本答案,可以极大的提升检索完整性与检索效率。

与上述方法实施例相对应,本说明书还提供了数据处理装置实施例,图4示出了本说明书一个实施例提供的一种数据处理装置的结构示意图。如图4所示,该装置包括:

预处理模块402,被配置为对获取的多个文本数据进行预处理,并基于预处理后的所述多个文本数据之间的相似度,将所述多个文本数据划分为至少一种类型;

问题确定模块404,被配置为确定每种类型的文本数据的目标问题、目标答案以及与所述目标问题关联的扩展问题;

存储模块406,被配置为确定所述目标问题在数据存储平台对应的数据库,并将所述目标问题、所述目标答案以及所述扩展问题存储至对应的数据库;

共享模块408,被配置为获取所有数据库中相同的目标问题,并将所述相同的目标问题关联的不同扩展问题进行数据库共享。

根据权利要求1所述的数据处理方法,所述对获取的多个文本数据进行预处理之前,还包括:

获取多个在线文本数据和多个离线文本数据,基于所述多个在线文本数据和所述多个离线文本数据形成多个文本数据。

可选地,所述预处理模块402,进一步被配置为:

根据预设过滤规则对获取的多个文本数据进行规则过滤;

根据语句评分规则对通过规则过滤后的多个文本数据进行语句过滤;

根据情感分析规则对通过语句过滤后的多个文本数据进行情感过滤。

可选地,所述预处理模块402,进一步被配置为:

将通过规则过滤后的多个文本数据输入语言模型,获得规则过滤后的多个文本数据中每个文本数据的语句得分;

从规则过滤后的多个文本数据中,删除语句得分小于等于预设得分阈值的文本数据。

可选地,所述预处理模块402,进一步被配置为:

获取通过语句过滤后的多个文本数据中每个文本数据的语料情绪以及敏感词;

从通过语句过滤后的多个文本数据中,删除语料情绪满足预设情绪阈值或者包含敏感词的文本数据。

可选地,所述存储模块406,进一步被配置为:

通过对所述目标问题的文本处理确定所述目标问题对应的领域;

基于所述目标问题对应的领域确定所述目标问题对应的数据库领域,并基于所述数据库领域确定所述目标问题在数据存储平台对应的数据库。

可选地,所述存储模块406,进一步被配置为:

判断所述目标问题对应的数据库中是否已经存储所述目标问题,

若是,则将所述目标问题关联的扩展问题存储至对应的数据库,并与所述目标问题进行关联,

若否,则将所述目标问题、所述目标答案以及所述扩展问题存储至对应的数据库。

可选地,所述共享模块408,进一步被配置为:

确定所述相同的目标问题中每个目标问题不存在的扩展问题;

将所述每个目标问题不存在的扩展问题存储至所述每个目标问题对应的数据库,并与所述每个目标问题进行关联。

本说明书实施例中,所述数据处理装置通过对不同领域的多个文本数据进行处理,将处理后的多个文本数据按照目标问题存储到不同的数据库中,并且将所有数据库中相同的目标问题中的不同扩展问题扩散性地克隆到其他数据库中,保证数据统一管理,降低后期维护成本。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。

与上述方法实施例相对应,本说明书还提供了数据查询装置实施例,图5示出了本说明书一个实施例提供的一种数据查询装置的结构示意图。如图5所示,该装置包括:

请求接收模块502,被配置为接收客户端发送的、携带有文本问题的数据查询请求;

预处理模块504,被配置为基于所述数据查询请求对所述文本问题进行预处理,确定所述文本问题在数据存储平台对应的数据库;

答案确定模块506,被配置为从与所述文本问题对应的数据库中,获取与所述文本问题对应的多个文本答案;并从所述多个文本答案中确定与所述文本问题对应的目标文本答案,其中,所述数据存储平台为上述数据处理方法中的数据存储平台。

可选地,所述答案确定模块506,进一步被配置为:

从与所述文本问题对应的数据库中,确定与所述文本问题对应的扩展问题,并确定每个扩展问题对应的目标答案;

将所有扩展问题对应的目标答案作为与所述文本问题对应的多个文本答案。

可选地,所述装置,还包括:

答案获取模块,被配置为确定所述文本问题在数据存储平台不存在对应的数据库的情况下,从所述数据存储平台的所有数据库中,获取与所述文本问题对应的多个文本答案。

可选地,所述答案确定模块506,进一步被配置为:

计算所述多个文本答案中每个文本答案与所述文本问题的语义相似度;

基于所述语义相似度对所述多个文本答案进行排序;

基于预设权重规则对排序后的多个文本答案进行顺序调整,并从调整后的多个文本答案中与所述文本问题对应的目标文本答案。

可选地,所述装置,还包括:

发送模块,被配置为确定所述目标文本答案对应的数据库,将所述目标文本答案以及所述目标文本答案对应的数据库的属性信息发送至所述客户端。

本说明书实施例中,所述数据查询装置可以通过领域识别、多库召回、知识消歧等功能点,可支持并行地从各领域知识库中获取到文本问题对应的目标文本答案,可以极大的提升检索完整性与检索效率。

上述为本实施例的一种数据查询装置的示意性方案。需要说明的是,该数据查询装置的技术方案与上述的数据查询方法的技术方案属于同一构思,数据查询装置的技术方案未详细描述的细节内容,均可以参见上述数据查询方法的技术方案的描述。

图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。

计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如I EEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。

在本说明书的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中,处理器620用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现所述数据处理方法或者所述数据查询方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法或者上述数据查询方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法或者上述数据查询方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,,该计算机可执行指令被处理器执行时实现所述数据处理方法或者所述数据查询方法的步骤。。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法或者上述数据查询方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法或者上述数据查询方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-On ly Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号