公开/公告号CN117633193A
专利类型发明专利
公开/公告日2024-03-01
原文格式PDF
申请/专利权人 太保科技有限公司;
申请/专利号CN202311737938.7
发明设计人
申请日2023-12-15
分类号G06F16/332;G06F16/33;G06F40/30;
代理机构北京集佳知识产权代理有限公司;
代理人韩丽波
地址 200010 上海市黄浦区中山南路1号11层(名义楼层)11V6室
入库时间 2024-04-18 19:56:28
技术领域
本申请涉及工智能问答技术领域,具体涉及一种查询问题的回复方法、装置、设备及存储介质。
背景技术
保险公司中各机构一线坐席作业流程中,坐席人员为回答用户问题常涉及在知识库中查询相关知识的操作,对于较为复杂的问题需要多次知识库查询、阅读多篇文档并总结相关知识才能响应的用户诉求,这一过程较为繁琐从而导致对用户回复不及时。
因此相关技术提出了保险条款检索系统回答用户问题,以提高响应的用户诉求的效率,但目前一些坐席所使用的保险条款检索系统大多是基于字面匹配的方式进行查询,存在查询语义理解效果差、知识定位不准确、仅支持单点知识查询的缺陷。
发明内容
基于上述问题,本申请提供了一种查询问题的回复方法、装置、设备及存储介质,可以提高查询的准确性和相关性,并且能够能够提供更全面、多样化的知识回复。
本申请实施例公开了如下技术方案:
一种查询问题的回复方法,所述方法包括:
获取查询问题,利用预先构建的大语言模型对所述查询问题进行预处理得到问题数据集,其中,所述问题数据集由若干个相似问题组成;
基于全量保险条款知识库为所述问题数据集中的各个相似问题匹配第一候选集,并对所述第一候选集中的所有候选文档进行切分得到若干个切分文档,其中,所述第一候选集由N个候选文档组成;N为正整数;
根据所述相似问题,利用所述若干个切分文档构建最佳数据集;
从所述最佳数据集筛选出最佳检索结果;
通过所述大语言模型将检索到的各个相似问题的最佳检索结果进行聚合得到一个查询结果。
在一种可能的实现方式中,所述利用预先构建的大语言模型对所述查询问题进行预处理得到问题数据集,包括:
利用预先构建的大语言模型对所述查询问题进行歧义消除得到消歧问题;
对所述消歧问题进行相似问题拆解得到若干个所述相似问题,构成所述问题数据集。
在一种可能的实现方式中,所述根据所述相似问题,利用所述若干个切分文档构建最佳数据集,包括:
利用向量化模型将所述相似问题和所述若干个切分文档分别进行向量化得到相似问题向量和若干个切分向量;
计算所述相似问题向量与各个切分向量之间的相似度得到若干个语义相似度;
根据语义相似度从所述若干个切分文档中筛选M个符合第一预设标准的切分文档构成第二候选集,其中,M为正整数且M小于N;
根据所述相似问题,利用所述第二候选集构建所述最佳数据集。
在一种可能的实现方式中,所述根据所述相似问题,利用所述第二候选集构建所述最佳数据集,包括:
将所述相似问题与所述第二候选集中的各个切分文档分别进行拼接得到若干个拼接数据,并将所述若干个拼接数据输入到预先构建的深度精排模型中得到若干个相似度得分;
根据相似度得分从所述第二候选集中的M个切分文档中筛选X个符合第二预设标准的切分文档构成所述最佳数据集,其中,X为正整数且X小于M。
在一种可能的实现方式中,所述预先构建的深度精排模型的构建过程包括:
基于波特模型并结合排序回顾模型的排序学习框架来构建所述深度精排模型。
在一种可能的实现方式中,所述预先构建的大语言模型的构建过程包括:
基于历史数据对对话转换器的底层模型进行训练得到所述大语言模型。
一种查询问题的回复装置,所述装置包括:
获取预处理单元,用于获取查询问题,利用预先构建的大语言模型对所述查询问题进行预处理得到问题数据集,其中,所述问题数据集由若干个相似问题组成;
匹配切分单元,用于基于全量保险条款知识库为所述问题数据集中的各个相似问题匹配第一候选集,并对所述第一候选集中的所有候选文档进行切分得到若干个切分文档,其中,所述第一候选集由N个候选文档组成;N为正整数;
第一构建单元,用于根据所述相似问题,利用所述若干个切分文档构建最佳数据集;
第一筛选单元,用于从所述最佳数据集筛选出最佳检索结果;
聚合单元,用于通过所述大语言模型将检索到的各个相似问题的最佳检索结果进行聚合得到一个查询结果。
在一种可能的实现方式中,所述装置还包括:
歧义消除单元,用于利用预先构建的大语言模型对所述查询问题进行歧义消除得到消歧问题;
相似问题拆解单元,用于对所述消歧问题进行相似问题拆解得到若干个所述相似问题,构成所述问题数据集。
一种查询问题的回复设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的查询问题的回复方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上所述的查询问题的回复方法。
相较于现有技术,本申请具有以下有益效果:
本申请提供了一种查询问题的回复方法、装置、设备及存储介质。具体地,在执行本申请实施例提供的查询问题的回复方法时,首先可以获取查询问题,并利用预先构建的大语言模型对查询问题进行预处理得到问题数据集。接着,基于全量保险条款知识库为问题数据集中的各个相似问题匹配第一候选集,并对第一候选集中的所有候选文档进行切分得到若干个切分文档。根据相似问题利用若干个切分文档构建最佳数据集。然后从最佳数据集筛选出最佳检索结果,并通过大语言模型将检索到的各个相似问题的最佳检索结果进行聚合得到一个查询结果。本申请基于大语言模型的预处理可以更好地理解查询问题的语义,提高了查询的准确性和相关性。同时,利用全量保险条款知识库匹配第一候选集,并对候选文档进行切分,可以更精确地定位相关知识,提供更准确的检索结果。并且通过构建最佳数据集和筛选最佳检索结果,能够支持多个相似问题的综合查询,从而能够提供更全面、多样化的知识回复,满足用户在复杂问题上的需求。此外,通过聚合检索到的最佳结果,系统能够将相关知识有效地整合成一个查询结果,使用户能够更方便地获取所需知识,提升用户满意度和体验。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种查询问题的回复方法的方法流程图;
图2为本申请实施例提供的一种查询问题的回复装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解本申请实施例提供的技术方案,下面将先对本申请实施例涉及的背景技术进行说明。
保险公司中各机构一线坐席作业流程指的是保险公司内部的一种工作流程,其主要涉及到在保险公司的各个机构中,一线坐席人员的工作流程。一线坐席人员是指直接面对保险客户的工作人员,他们的主要工作职责是解答客户的问题、为客户提供服务和支持等。在保险公司中,一线坐席人员的工作流程通常包括几个环节:接听客户电话或处理客户来访、查询知识库或其他资料、给客户提供解答或处理方案以及记录客户信息和服务记录等。
在保险公司中各机构一线坐席作业流程中,坐席人员为回答用户问题常涉及在知识库中查询相关知识的操作,对于较为复杂的问题需要多次知识库查询、阅读多篇文档并总结相关知识才能响应的用户诉求,这一过程较为繁琐从而导致对用户回复不及时。
因此相关技术提出了保险条款检索系统回答用户问题,以提高响应的用户诉求的效率,但目前一些坐席所使用的保险条款检索系统大多是基于字面匹配的方式进行查询,存在查询语义理解效果差、知识定位不准确、仅支持单点知识查询的缺陷。
为了解决这一问题,在本申请实施例提供了一种查询问题的回复方法、装置、设备及存储介质,先获取查询问题,并利用预先构建的大语言模型对查询问题进行预处理得到问题数据集。然后基于全量保险条款知识库为问题数据集中的各个相似问题匹配第一候选集,并对第一候选集中的所有候选文档进行切分得到若干个切分文档。接着,根据相似问题利用若干个切分文档构建最佳数据集,并从最佳数据集筛选出最佳检索结果。通过大语言模型将检索到的各个相似问题的最佳检索结果进行聚合得到一个查询结果。本申请基于大语言模型的预处理可以更好地理解查询问题的语义,提高了查询的准确性和相关性。同时,利用全量保险条款知识库匹配第一候选集,并对候选文档进行切分,可以更精确地定位相关知识,提供更准确的检索结果。并且通过构建最佳数据集和筛选最佳检索结果,能够支持多个相似问题的综合查询,从而能够提供更全面、多样化的知识回复,满足用户在复杂问题上的需求。此外,通过聚合检索到的最佳结果,系统能够将相关知识有效地整合成一个查询结果,使用户能够更方便地获取所需知识,提升用户满意度和体验。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种查询问题的回复方法的方法流程图,如图1所示,该查询问题的回复方法可以包括步骤S101-S105:
S101:获取查询问题,利用预先构建的大语言模型对所述查询问题进行预处理得到问题数据集。
其中,问题数据集由若干个相似问题组成。
为实现对用户问题的回答,查询问题的回复系统首先需要从各种渠道收集用户提出的问题,例如,2023年沪惠保免赔额相比往年有变化吗。
由于保险条款知识库内容丰富,经常出现查询结果符合文本语义但不符合坐席真实目的的结果,因此还需要将用户提出的问题即获取到的查询问题输入到预先构建的大语言模型中进行歧义消除和相似问题拆解等预处理得到由若干个相似问题组成的问题数据集。
具体地,先利用预先构建的大语言模型对查询问题进行歧义消除得到消歧问题,
在大语言模型接受到查询问题时,大语言模型会接收到系统消息以提示大语言模型:S1=“你是一个保险一线业务坐席人员,希望在保险条款知识库查找知识”,并通过指令引导大语言模型完成查询内容消歧:I1=“请对待查询的问题判断其是否存在歧义,并逐一输出消歧后的问题”,然后将具体问题Question代入。完整的大语言模型输入Input1=[S1,I1,Question],输出Output1=[Q1,Q2,...,Qi],例如,Question=2023年沪惠保免赔额相比往年有变化吗,输出Output1=[2023年沪惠保免赔额相比往年有变化吗,2022年年沪惠保免赔额相比往年有变化吗]。或者Question=沪惠保一年多少钱,输出Output1=[2023年沪惠保保费是多少,2022年沪惠保保费是多少,2021年沪惠保保费是多少]。
预先构建的大语言模型是基于历史数据对对话转换器的底层模型进行训练得到的。其中,历史数据可以是保险公司的保险行业、业务知识数据和语料等。保险行业指的是专门从事保险业务的行业,包括保险公司、保险代理人、保险经纪人等。保险行业涉及风险评估、保险产品设计、理赔处理等方面。业务知识数据是指与保险行业相关的专业知识和信息。这些数据包括保险产品的特点、保险合同的条款、保险风险评估的方法、理赔流程等。这些知识数据对于理解和处理保险行业的任务和问题非常重要。语料是指用于训练自然语言处理(NLP)模型的文本数据集。在保险行业的情况下,语料可以包括保险领域的文档、报告、合同、问答对等。这些语料数据可以用来训练模型,使其能够更好地理解和生成与保险相关的文本。对话转换器是指类ChatGPT(Chat Generative Pre-trained Transformer,对话生成预训练转换器)模型,类ChatGPT模型采用了13Billion的参数量级GPT模型。13Billion的参数量级指的是模型中的参数数量约为130亿(13,000,000,000)个。这表明该模型非常大,并具有更强大的语言处理和生成能力。
具体地,基于历史数据对类ChatGPT的底层模型进行训练得到大语言模型的步骤如下:
预训练:首先类ChatGPT的底层模型通过使用公司内部积累的保险行业和业务知识数据以及语料进行预训练。在预训练阶段,类ChatGPT的底层模型通过学习大规模文本数据的统计特征和上下文信息来建立初步的语言理解和生成能力。
指令微调:在预训练之后,类ChatGPT的底层模型进行指令微调。这意味着使用具体的指令或任务来微调类ChatGPT的底层模型,使其能够更好地适应特定的应用场景和任务需求。在保险行业的情况下,指令微调可能包括针对保险领域的特定问题和信息的微调。
基于人类反馈的强化学习:在类ChatGPT的底层模型经过指令微调后,可以进一步通过与人类进行交互并接收人类反馈来进行强化学习。通过与人类的交互,类ChatGPT的底层模型可以进一步优化其对话生成能力,从而提供更准确、相关和人性化的回答。
S102:基于全量保险条款知识库为所述问题数据集中的各个相似问题匹配第一候选集,并对所述第一候选集中的所有候选文档进行切分得到若干个切分文档。
其中,第一候选集由N个候选文档组成,N为正整数。
Elasticsearch即全量保险条款知识库是一个开源的分布式搜索引擎,它使用倒排索引技术来实现快速的全文搜索和分析功能。
由于Elasticsearch即全量保险条款知识库中包含了保险产品的详细条款和解释,可以提供与用户问题相关的详细信息。通过将问题与全量保险条款知识库进行匹配,可以更准确地找到与问题相关的条款,提供更精确和全面的答案。因此可以通过Elasticsearch对问题数据集中的每一个相似问题进行字面语义匹配这种粗略的匹配方式,可以得到每个相似问题的问题答复集合即第一候选集,每个相似问题的第一候选集中又包含了很多个候选文档组成。每个相似问题的候选文档由文档标题和文档内容组成。
同时由于保险条款文档普遍较长,超出了普通深度学习模型的处理长度范围。因此需要对匹配到的候选文档进行切分,得到Bij=[Bi1,Bi2,...,Bim],其中,0<j≤m。其中,每个内容块Bij控制在200~500字,m由完整保险条款内容长度决定。由于该模块对各篇保险条款文档的处理结果固定,可以提前切分好进行缓存。
举例来说,假设原始的保险条款文档Di包含以下两个段落:
汽车保险条款第一段内容...
汽车保险条款第二段内容...
现在我们根据段落信息对该保险条款文档进行切分,得到了两个切分后的段落:
Bi1=“汽车保险条款第一段内容...”
Bi2=“汽车保险条款第二段内容...”。
S103:根据所述相似问题,利用所述若干个切分文档构建最佳数据集。
为了提高文本匹配的准确性和效率,需要根据相似问题并利用若干个切分文档构建一个最佳数据集。最佳数据集中的切分文档都是与其相似问题匹配度较高的文档。
具体地,首先可以利用向量化模型将相似问题和若干个切分文档分别进行向量化得到相似问题向量和若干个切分向量。向量化模型可以是但不限于SentenceBERT,SentenceBERT是一种基于BERT(Bidirectional Encoder Representations fromTransformers)的模型,用于对文本句子进行向量表示。与传统的BERT模型用于处理单个句子不同,SentenceBERT旨在将句子编码为具有语义信息的固定长度向量。SentenceBERT的核心思想是通过预训练和微调的方式学习句子级别的语义表示。
接着计算相似问题向量与各个切分向量之间的相似度得到若干个语义相似度。计算相似问题向量与各个切分向量之间的相似度,可以采用余弦相似度(CosineSimilarity)的方法进行计算。
再根据语义相似度从若干个切分文档中筛选M个符合第一预设标准的切分文档构成第二候选集,其中,M为正整数且M小于N。就是对若干个语义相似度进行排序,采集前M个语义相似度对应的切分文档从而构成一个集合,将这个集合定义为第二候选集。符合第一预设标准是指语义相似度的排名在前M个。
最后根据相似问题,利用第二候选集构建所述最佳数据集。
具体地,为实现根据相似问题,利用第二候选集构建最佳数据集。首先可以将相似问题与第二候选集中的各个切分文档分别进行拼接得到若干个拼接数据,并将若干个拼接数据输入到预先构建的深度精排模型中得到若干个相似度得分。
然后根据相似度得分从第二候选集中的M个切分文档中筛选X个符合第二预设标准的切分文档构成所述最佳数据集,其中,X为正整数且X小于M。就是对若干个相似度得分进行排序,采集前X个相似度得分对应的切分文档从而构成一个集合,将这个集合定义为第二候选集。第二预设标准是指相似度得分的排名在前X个。
根据相似度得分从第二候选集中的M个切分文档中筛选X个符合第二预设标准的切分文档构成所述最佳数据集可以根据相似度得分通过权衡精准率和召回率取得分最高的前X个保险条款内容块作为候选集来实现。
要通过权衡精准率和召回率来选择相似度最高的前X个保险条款内容块作为第二候选集,你可以按照以下步骤进行:
计算相似度:首先,使用训练好的语义相似度模型(如SentenceBERT)计算待选保险条款内容块与目标内容块的相似度得分。
排序:根据相似度得分对所有待选保险条款内容块进行排序,选择相似度最高的前X个内容块作为候选集。
权衡精准率和召回率:根据具体任务需求,确定精准率和召回率的权衡策略。如果更注重找到所有相关内容,则可设置较大的X值以提高召回率;如果更注重确保选出的内容都是相关的,则可设置较小的X值以提高精准率。
评估精准率和召回率:根据已有的标注数据或者领域专家的判断,对所选的候选集进行精准率和召回率的评估。可以使用标准的信息检索评价指标来衡量模型的性能,如精确率、召回率和F1值。
调整参数:根据评估结果,对X值进行调整,再次计算相似度得分并重新选择候选集,直至达到理想的精准率和召回率的平衡点。
预先构建的深度精排模型是基于波特模型并结合排序回顾模型的排序学习框架构建得到的。其中,波特模型即BERT(Bidirectional Encoder Representations fromTransformers,双向编码器表示的转换器),BERT(Bidirectional EncoderRepresentations from Transformers)是由谷歌提出的一种预训练的语言表示模型。它是一种基于Transformer架构的深度学习模型,通过在大规模文本语料上进行预训练,学习到了丰富的语言表示。排序回顾模型即RankNet(Ranking Retrospective,排序回顾)模型,RankNet模型是一种基于神经网络的排序模型,用于解决排序学习问题。
具体地,构建深度精排模型的步骤如下:
预训练的BERT模型:使用预训练的BERT模型作为特征提取器。将搜索结果中的文本输入到BERT模型中,可以获取每个搜索结果的高维特征表示。
特征表示:利用预训练的BERT模型,将搜索结果的文本转换为相应的特征向量。这些特征向量捕捉了搜索结果的语义信息和上下文关联。
构建深度精排模型:将预训练的BERT模型与RankNet排序学习框架结合起来构建深度精排模型。可以使用两个并行的全连接层,分别处理两个搜索结果的特征向量。然后,将两个特征向量连接在一起,通过神经网络进行非线性映射和激活函数处理。
损失函数和训练:定义合适的损失函数,例如使用交叉熵损失或RankNet的目标函数来衡量模型预测与真实排序之间的差异。然后,使用一组已标注的搜索结果和相关性进行训练,通过反向传播算法更新模型参数。
推断和应用:在模型训练完成后,可以使用深度精排模型对新的搜索结果进行排序。将搜索结果的特征输入模型,得到相应的预测分数,根据预测分数对搜索结果进行排序,以提供更准确和相关的搜索结果。
S104:从所述最佳数据集筛选出最佳检索结果。
在得到最佳数据集之后,可以采用机器阅读理解模型将最佳数据集的范围进一步缩小,并从中筛选出最佳的检索结果。
具体地,可以采用机器阅读理解模型对精排得到的切分文档块进行逐一阅读,直接返回文档中与查询内容相关的具体知识块。具体地,将问题Q和X个内容块Bij分别进行拼接得到Mij=[Q;Bij],将Mij输入机器阅读理解模型,输出得到包含答案片段的起始位置ps和结束位置pe,将Bij中ps~pe之间的文本取出作为结果输出。通过权衡精准率和召回率取得分最高的前Y个保险条款内容块作为第三候选集。Y为正整数且小于X。然后从第三候选集中挑选出排名第一的切分文档作为最佳检索结果。
S105:通过所述大语言模型将检索到的各个相似问题的最佳检索结果进行聚合得到一个查询结果。
不同的相似问题可能会从不同的角度描述同一问题,通过聚合这些问题的最佳检索结果,可以综合多个视角的知识,提供更全面、多样化的回答。这样可以满足用户对于同一问题的不同理解和需求。同时,通过聚合多个相似问题的最佳检索结果,可以增加知识的覆盖范围,提高答案的准确性。有时候,单个问题的查询结果可能存在一定的偏差或不完整,而通过多个相似问题的聚合,可以弥补其中的不足,得到更准确的答案。
具体地,对比相似问题的答案:对于每个问题的最佳检索结果,使用大语言模型进行语义匹配,并将相似度高的答案进行对比。这样可以找出多个相似问题中的相同和不同点,进而确定需要聚合的知识点和答案。
聚合知识点和答案:根据对比结果,将多个相似问题的知识点和答案进行聚合。这一步可以根据不同的需求,采用不同的聚合方式,如简单的拼接、加权平均等。
输出查询结果:根据聚合后的知识点和答案,生成一个查询结果,并呈现给用户。这一步还可以根据查询内容的不同,结合领域知识和用户意图,对查询结果进行过滤、排序、分类等操作,提供更加个性化和精准的回答。
举例来说,假设用户查询的问题是“如何选择适合的汽车保险”,我们可以使用大语言模型检索与此问题相似的其他问题,比如“如何购买最合适的家庭保险?”、“如何理解医疗保险的各项条款?”等。针对每个相似问题的最佳检索结果,使用大语言模型进行语义匹配,找出其中相同和不同的知识点和答案。比如,对于汽车保险和家庭保险,可能有些知识点是相同的(如保险购买的要点),但也会有一些不同的知识点(如保险范围、保费计算等)。
然后根据对比结果,将多个相似问题的知识点和答案进行聚合。例如,可以将相同的知识点直接拼接在一起,而对于不同的知识点,可以按需求选择其中一个或提供多个答案供用户选择。最后基于聚合后的知识点和答案,生成一个查询结果,比如:“选择适合的保险需要考虑家庭情况、车辆情况和个人需求。购买保险时,可以参考保险范围、保费计算、理赔方式等因素。具体选择哪种保险最好,可以咨询专业保险代理人或公司,以获取更准确的建议。”。
基于S101-S105的内容可知,先可以获取查询问题,并利用预先构建的大语言模型对查询问题进行预处理得到问题数据集。接着,基于全量保险条款知识库为问题数据集中的各个相似问题匹配第一候选集,并对第一候选集中的所有候选文档进行切分得到若干个切分文档。最后,根据相似问题利用若干个切分文档构建最佳数据集,从最佳数据集筛选出最佳检索结果,并通过大语言模型将检索到的各个相似问题的最佳检索结果进行聚合得到一个查询结果。本申请基于大语言模型的预处理可以更好地理解查询问题的语义,提高了查询的准确性和相关性。同时,利用全量保险条款知识库匹配第一候选集,并对候选文档进行切分,可以更精确地定位相关知识,提供更准确的检索结果。并且通过构建最佳数据集和筛选最佳检索结果,能够支持多个相似问题的综合查询,从而能够提供更全面、多样化的知识回复,满足用户在复杂问题上的需求。此外,通过聚合检索到的最佳结果,系统能够将相关知识有效地整合成一个查询结果,使用户能够更方便地获取所需知识,提升用户满意度和体验。
参见图2,图2为本申请实施例提供的一种查询问题的回复装置的结构示意图。如图2所示,该查询问题的回复装置包括:
获取预处理单元201,用于获取查询问题,利用预先构建的大语言模型对所述查询问题进行预处理得到问题数据集,其中,所述问题数据集由若干个相似问题组成;
匹配切分单元202,用于基于全量保险条款知识库为所述问题数据集中的各个相似问题匹配第一候选集,并对所述第一候选集中的所有候选文档进行切分得到若干个切分文档,其中,所述第一候选集由N个候选文档组成;N为正整数;
第一构建单元203,用于根据所述相似问题,利用所述若干个切分文档构建最佳数据集;
第一筛选单元204,用于从所述最佳数据集筛选出最佳检索结果;
聚合单元205,用于通过所述大语言模型将检索到的各个相似问题的最佳检索结果进行聚合得到一个查询结果。
在一种可能的实现方式中,所述获取预处理单元201包括:
歧义消除单元,用于利用预先构建的大语言模型对所述查询问题进行歧义消除得到消歧问题;
相似问题拆解单元,用于对所述消歧问题进行相似问题拆解得到若干个所述相似问题,构成所述问题数据集。
在一种可能的实现方式中,所述第一构建单元203包括:
向量化单元,用于利用向量化模型将所述相似问题和所述若干个切分文档分别进行向量化得到相似问题向量和若干个切分向量;
计算单元,用于计算所述相似问题向量与各个切分向量之间的相似度得到若干个语义相似度;
第一筛选单元,用于根据语义相似度从所述若干个切分文档中筛选M个符合第一预设标准的切分文档构成第二候选集,其中,M为正整数且M小于N;
第二构建单元,用于根据所述相似问题,利用所述第二候选集构建所述最佳数据集。
在一种可能的实现方式中,所述第二构建单元包括:
拼接输入单元,用于将所述相似问题与所述第二候选集中的各个切分文档分别进行拼接得到若干个拼接数据,并将所述若干个拼接数据输入到预先构建的深度精排模型中得到若干个相似度得分;
第二筛选单元,用于根据相似度得分从所述第二候选集中的M个切分文档中筛选X个符合第二预设标准的切分文档构成所述最佳数据集,其中,X为正整数且X小于M。
在一种可能的实现方式中,所述装置还包括:
第三构建单元,用于基于波特模型并结合排序回顾模型的排序学习框架来构建所述深度精排模型。
在一种可能的实现方式中,所述装置还包括:
训练单元,用于基于历史数据对对话转换器的底层模型进行训练得到所述大语言模型。
另外,本申请实施例还提供了一种查询问题的回复设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的查询问题的回复方法。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上所述的查询问题的回复方法。
本申请实施例提供了一种查询问题的回复装置,先利用获取预处理单元201获取查询问题,利用预先构建的大语言模型对查询问题进行预处理得到问题数据集,并利用匹配切分单元202基于全量保险条款知识库为问题数据集中的各个相似问题匹配第一候选集,并对第一候选集中的所有候选文档进行切分得到若干个切分文档。第一构建单元203根据相似问题,利用若干个切分文档构建最佳数据集。然后利用第一筛选单元204从最佳数据集筛选出最佳检索结果,以使聚合单元205可以通过大语言模型将检索到的各个相似问题的最佳检索结果进行聚合得到一个查询结果。本申请基于大语言模型的预处理可以更好地理解查询问题的语义,提高了查询的准确性和相关性。同时,利用全量保险条款知识库匹配第一候选集,并对候选文档进行切分,可以更精确地定位相关知识,提供更准确的检索结果。并且通过构建最佳数据集和筛选最佳检索结果,能够支持多个相似问题的综合查询,从而能够提供更全面、多样化的知识回复,满足用户在复杂问题上的需求。此外,通过聚合检索到的最佳结果,系统能够将相关知识有效地整合成一个查询结果,使用户能够更方便地获取所需知识,提升用户满意度和体验。
以上对本申请所提供的一种查询问题的回复方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
机译: 一种用于生产醋酸甲酯的脉动流化床反应器和使用其生产醋酸甲酯的方法
机译: 提纯碳酸二甲酯的方法和提纯碳酸二甲酯的设备
机译: 醋酸和/或醋酸甲酯连续生产方法的改进