首页> 中国专利> 文本理解模型的训练方法和文本理解方法、装置

文本理解模型的训练方法和文本理解方法、装置

摘要

本公开提供了一种文本理解模型的训练方法和文本理解方法、装置、设备和介质,涉及人工智能领域,具体涉及自然语言处理和深度学习等技术领域,可应用于智能问答、智能搜索、智能推荐等场景。文本理解模型包括依次连接的多个编码子模型和输出层,至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络。训练方法的具体实现方案为:确定与目标文本理解任务对应的有偏样本文本;将有偏样本文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对有偏样本文本依次处理,得到文本理解特征;将文本理解特征输入输出层,得到预测理解信息;以及根据有偏样本文本标注的真实理解信息和预测理解信息,对文本理解模型进行训练。

著录项

  • 公开/公告号CN116050465A

    专利类型发明专利

  • 公开/公告日2023-05-02

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202310143390.7

  • 发明设计人 颜璟;陈艳;刘璟;

    申请日2023-02-09

  • 分类号G06N3/045(2023.01);G06N3/08(2023.01);G06F40/30(2020.01);

  • 代理机构中科专利商标代理有限责任公司 11021;

  • 代理人吕朝蕙

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 19:32:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-02

    公开

    发明专利申请公布

说明书

技术领域

本公开涉及人工智能领域,具体涉及自然语言和深度学习等技术领域,可应用于智能问答、智能搜索、智能推荐等场景。

背景技术

随着计算机技术和电子技术的发展,基于深度学习的自然语言理解技术取得了很大的发展。自然语言理解是所有支持机器理解文本内容的方法、模型或任务的总称。自然语言理解是自然语言处理领域的一个重要研究方向。

基于深度学习的自然语言理解技术主要是采用深度学习模型预先从数据中学习知识,然后根据已经学到的知识进行预测。即,自然语言理解模型的理解能力是从数据中预先学习到的,如果从有偏数据中学习到文本理解的某种捷径(shortcuts),模型常常会依靠该捷径进行文本理解,而忽略了文本的真正语义。

发明内容

本公开旨在提供一种文本理解模型的训练方法和文本理解方法、装置、电子设备和存储介质,旨在针对多种捷径对模型进行训练,避免模型依据学习到的多种捷径进行文本理解,提高模型的文本理解精度。

根据本公开的第一方面,提供了一种文本理解模型的训练方法,其中,文本理解模型包括依次连接的多个编码子模型和输出层;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;训练方法包括:确定与目标文本理解任务对应的有偏样本文本;将有偏样本文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对有偏样本文本依次处理,得到文本理解特征;将文本理解特征输入输出层,得到预测理解信息;以及根据有偏样本文本标注的真实理解信息和预测理解信息,对文本理解模型进行训练。

根据本公开的第二方面,提供了一种基于文本理解模型的文本理解方法,其中,文本理解模型包括依次连接的多个编码子模型;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;文本理解方法包括:将待理解文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对待理解文本依次处理后,得到文本理解特征;以及将文本理解特征输入输出层,得到预测理解信息,其中,文本理解模型是采用本公开第一方面提供的文本理解模型的训练方法训练得到的。

根据本公开的第三方面,提供了一种文本理解模型的训练装置,其中,文本理解模型包括依次连接的多个编码子模型和输出层;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;训练装置包括:样本文本确定模块,用于确定与目标文本理解任务对应的有偏样本文本;文本理解模块,用于将有偏样本文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对有偏样本文本依次处理后,得到文本理解特征;预测信息获得模块,用于将文本理解特征输入输出层,得到预测理解信息;以及模型训练模块,用于根据样本文本标注的真实理解信息和预测理解信息,对文本理解模型进行训练。

根据本公开的第四方面,提供了一种基于文本理解模型的文本理解装置,其中,文本理解模型包括依次连接的多个编码子模型;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络;训练装置包括:文本理解模块,用于将待理解文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对待理解文本依次处理后,得到文本理解特征;以及预测信息获得模块,用于将文本理解特征输入输出层,得到预测理解信息,其中,文本理解模型是采用本公开第三方面提供的文本理解模型的训练装置训练得到的。

根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的文本理解模型的训练方法和/或基于文本理解模型的文本理解方法。

根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的文本理解模型的训练方法和/或基于文本理解模型的文本理解方法。

根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上,所述计算机程序/指令在被处理器执行时实现本公开提供的文本理解模型的训练方法和/或基于文本理解模型的文本理解方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开实施例的文本理解模型的训练方法和基于文本理解模型的文本理解方法、装置的应用场景示意图;

图2是根据本公开实施例的文本理解模型的训练方法的流程示意图;

图3是根据本公开实施例的文本理解模型的训练方法的原理示意图;

图4是根据本公开实施例的基于文本理解模型的文本理解方法的流程示意图;

图5是根据本公开实施例的文本理解模型的训练装置的结构框图;

图6是根据本公开实施例的基于文本理解模型的文本理解装置的结构框图;以及

图7是用来实施本公开实施例的方法的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

自然语言理解是自然语言处理领域的一个重要研究方向,在文本信息处理系统中扮演着非常重要的角色,是推荐、问答、搜索等系统的必备模块,应用方向包括语义分析、机器客服、语音识别等。

在深度学习中,自然语言理解模型(也可称为文本理解模型)的处理能力都是从样本数据中预先学习得到的。若样本数据为有偏样本文本,即样本数据中存在某种捷径,模型常常会先学习到这种捷径,并在文本理解时,优先依据文本中存在的捷径确定理解结果,而忽略了整个文本的语义。

例如,自然语言理解场景中,样本数据通常存在的捷径类型包括:词汇特征捷径类型、部分输入捷径类型和句间重叠捷径类型等。

词汇特征捷径类型是指样本数据中包括与样本标签之间存在虚假的关联的类型,对应地,有偏样本文本的有偏类型包括:包括目标词汇的类型,其中的目标词汇与包括目标词汇的样本文本所标注的真实理解信息之间具有非绝对关联关系,即,大部分包括目标词汇的样本文本所标注的真实理解信息为第一信息,而少部分包括目标词汇的样本文本所标注的真实理解信息为除第一信息外的其他信息。

部分输入捷径类型是指文本理解模型只依赖样本文本中的部分文本即可以执行文本理解任务的类型,对应地,有偏样本文本的有偏类型包括部分文本为目标文本的类型,即模型根据该类型样本文本中包括的目标文本,即可执行文本理解任务。可以理解的是,其中的目标文本可以为文本理解模型针对包括目标文本的样本文本成功执行文本理解任务所需的最短文本,且目标文本仅为样本文本的部分文本。

句间重叠捷径类型是指文本之间高度重叠的类型。对应地,有偏样本文本的有偏类型例如可以包括与预定文本库中的至少一个文本的词汇重叠率大于预定重叠率的类型。其中,预定文本库例如可以为搜索应用中预先维护的文本库。该类型的有偏样本文本与预定文本库中的至少一个文本之间的词汇重叠率大于预定重叠率。该预定重叠率可以根据实际需求进行设定,例如可以为0.8等,本公开对此不做限定。

在智能问答、智能推荐、智能搜索等需要执行文本理解任务的每种场景中,都会存在以上多种类型的有偏样本文本中的至少一种。以智能搜索场景为例,智能搜索场景中文本理解任务的主要目标是判断用户输入的query与预定query库中query的语义的一致性。当用户使用搜索引擎输入query“确诊A疾病后多久可以痊愈”时,若模型预先学习到了包含“痊愈”的query的语义趋于一致这一捷径,则容易依据此捷径错误地判断出输入的query“确诊A疾病后多久可以痊愈”和query库中的query“A疾病痊愈后多久会复发”的语义一致,并依据query库中的query“A疾病痊愈后多久会复发”向用户反馈答复信息。又例如,若模型预先学习到了词汇重叠率大于预定重叠率的两个文本的语义趋于一致这一捷径,则容易此捷径错误的判断出输入的query“豆腐和菠菜能不能同时食用”与query库中的query“豆腐和菠萝能不能同时食用”的语义一致。

为了解决因有偏样本文本的存在,文本理解模型学习到捷径的技术问题,可以向原始的训练数据中增加用来对抗捷径的数据或删除有偏样本文本,也可以采用某种类型的有偏样本文本单独训练一个仅学习到某种类型的捷径的模型(简称为纯捷径模型),在训练文本理解模型时,利用纯捷径模型提供指导,比如降低纯捷径模型所认为的捷径贡献较大的样本的权重。该些方法中,通常仅针对一种类型的捷径训练模型,当面对多种捷径时,模型只能有效地避免其中一种类型的捷径,而无法在避免所有类型的捷径。若避免多种类型的捷径,则通常需要训练多个模型,在文本处理系统中部署文本理解模型时,则需要部署多个模型,并采用每个模型做出预测。这无疑会大大增加模型的训练和部署成本。再者,为了使得模型避免某种捷径,通常需要大量的训练样本训练模型,训练成本高,训练时间长。

为了解决该问题,本公开提供了一种文本理解模型的训练方法和基于文本理解模型的文本理解方法、装置、设备和介质。以下先结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的文本理解模型的训练方法和基于文本理解模型的文本理解方法、装置的应用场景示意图。

如图1所示,该应用场景100中可以包括终端设备110,该终端设备110可以为具有处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和智能可穿戴设备等等。该终端设备110上例如可以安装有智能推荐平台、智能搜索平台、语音交互类应用等客户端应用。

终端设备110可以对获取到的待处理文本120进行自然语言理解,从而得到理解结果130。例如,若待处理文本120为询问语句,终端设备110可以对待处理文本120的语义进行理解,并根据理解得到的语义推理得到答复语句,并将该答复语句作为理解结果130。例如,若待处理文本120为搜索语句,终端设备110可以对待处理文本120进行语义理解,并确定预定搜索语句库中与待处理文本120的语义相匹配的语句,将预先维护的与该相匹配的语句对应的搜索结果作为理解结果130。可以理解的是,针对不同类型的待处理文本120,终端设备110均需要对该待处理文本进行自然语言理解,并根据理解的语义推理得到与文本理解任务匹配的理解结果。文本理解任务可以包括智能推荐任务、智能问答任务、智能搜索任务、机器翻译任务等,本公开对此不做限定。

在一实施例中,终端设备110例如可以采用预先训练得到的文本理解模型140来对待处理文本120进行处理。具体可以将待处理文本120输入预先训练得到的文本理解模型140,根据文本理解模型140的输出来确定理解结果1 30。

在一实施例中,该应用场景100还可以包括服务器150,终端设备110可以通过网络与服务器150通信连接。服务器150例如可以为向终端设备110中安装的客户端应用的运行提供支持的后台管理服务器,也可以为云服务器或者区块链服务器等,本公开对此不做限定。

例如,该服务器150例如可以采用文本库160中的文本对初始文本理解模型进行训练。随后,在训练得到的初始文本理解模型包括的编码器之后添加门网络和专家网络,得到重构的文本理解模型。随后,从文本库160中筛选出有偏样本文本170,并采用有偏样本文本170对重构的文本理解模型进行训练,从而得到训练好的文本理解模型140。

例如,对于智能推荐任务,初始文本理解模型可以为基于深度神经网络构建的双塔模型。对于智能问答任务,初始文本理解模型可以为来自变压器的双向编码表示模型(Bidirectional Encoder Representation from Transformer,简称为BERT)等。对于智能搜索任务,初始文本理解模型可以包括基于BERT的双塔模型、ColBERT模型(Contextualized Late Interaction over BERT)等。

在一实施例中,服务器150可以响应于终端设备110的请求,将训练好的文本理解模型140发送给终端设备110,以供终端设备110利用该文本理解模型140对待处理文本进行处理。或者,终端设备110也可以将待处理文本120发送给服务器150,由服务器150采用训练好的文本理解模型来对待处理文本进行处理。

需要说明的是,本公开提供的文本理解模型的训练方法可以由服务器150执行。相应地,本公开提供的文本理解模型的训练装置可以设置在服务器150中。本公开提供的基于文本理解模型的文本理解方法可以由终端设备110执行,也可以由服务器150执行。相应地,本公开提供的基于文本理解模型的文本理解装置可以设置在终端设备110中,也可以设置在服务器150中。

应该理解,图1中的终端设备110、服务器150和文本库160的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备110、服务器150和文本库160。

以下将结合图2~图3对本公开提供的文本理解模型的训练方法进行详细描述。

图2是根据本公开实施例的文本理解模型的训练方法的流程示意图。

如图2所示,该实施例的文本理解模型的训练方法200可以包括操作S210~操作S240。

其中,文本理解模型与上文描述的BERT模型等类似,可以包括依次连接的多个编码子模型和输出层,区别在于,本实施例中的文本理解模型中的至少一个编码子模型中还设置有门网络和多个专家网络。例如,除该至少一个编码子模型外的其他编码子模型仅包括编码器,而该至少一个编码子模型除编码器外,还包括门网络和多个专家网络,且门网络和多个专家网络设置在编码器之后。

根据本公开的实施例,该实施例中需要训练的文本理解模型可以为:将上文描述的BERT模型等作为初始模型,在根据文本库中的文本对初始模型进行训练后,在至少一个编码子模型中添加门网络和多个专家网络所得到的模型。

在操作S210,确定与目标文本理解任务对应的有偏样本文本。

根据本公开的实施例,有偏样本文本可以为文本库中的一部分文本,也可以为根据实际需求实时生成的样本文本。有偏样本文本是指会使得文本理解模型学习到捷径(shortcuts)的样本文本。可以理解的是,在自然语言理解领域中,该捷径也被称为偏差(bias)。即,有偏样本文本为使得文本理解模型的学习出现偏差的样本文本。

该实施例中,可以先确定在目标文本理解任务中,文本理解模型可能学习到的捷径的类型,将与该捷径的类型对应的有偏类型的样本文本作为与目标文本理解任务对应的有偏样本文本。例如,该实施例可以预先维护有文本理解任务与可能学习到的捷径的类型之间的映射关系,根据该映射关系,确定在目标文本理解任务中可能学习到的捷径的类型。其中,映射关系例如可以根据经验设定,本公开对此不做限定。

例如,对于智能搜索场景中的文本理解任务,文本理解模型可能学习到的捷径的类型包括:上文描述的词汇特征捷径类型、上文描述的句间重叠捷径类型等。相应地,与目标文本理解任务对应的有偏样本文本包括以下有偏类型的文本:上文描述的包括目标词汇的类型、上文描述的与预定文本库中的至少一个文本的词汇重叠率大于预定重叠率的类型等。

例如,对于智能问答场景中的文本理解任务,文本理解模型可能学习到的捷径的类型包括:上文描述的词汇特征捷径类型、上文描述的部分输入捷径类型等。相应地,与目标文本理解任务对应的有偏样本文本包括以下有偏类型的文本:上文描述的包括目标词汇的类型、上文描述的部分文本为目标文本的类型等。

可以理解的是,上文描述的各场景中,学习到的捷径的类型和有偏样本文本的有偏类型仅作为示例以利于理解本公开,本公开对此不做限定。

在操作S220,将有偏样本文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对有偏样本文本依次处理,得到文本理解特征。

该实施例中,将有偏样本文本输入排在首位的编码子模型中,对于依次连接的多个编码子模型中除排在首位的编码子模型外的任一子模型,该任一子模型的前一编码子模型的输出作为该任一子模型的输入,该任一子模型的输出作为该任一子模型的后一编码子模型的输入,以对有偏样本文本进行依次处理。将排在末尾的编码子模型的输出作为文本理解特征。

可以理解的是,多个编码子模型中的每个子模型均包括编码器,用于对输入该每个子模型的信息进行编码。该编码器例如可以为基于循环神经网络构建的编码器,也可以为Transformer架构的编码器。例如,若采用Transformer架构的编码器,则由于可以对信息进行并行处理,且可以加深网络深度,因此可以利于获取更多的全局信息,提升文本理解模型的准确率。再者,由于Transformer架构的编码器的网络结构通常较为复杂,为了保证模型的准确率,需要依赖大量的样本进行训练。而本公开实施例通过在至少一个编码子模型中设置门网络和多个专家网络,并采用有偏样本文本对文本理解模型进行针对性地训练,可以有效减少训练过程所以来的样本量,提高模型训练效率。

在一实施例中,至少一个编码子模型中每个编码子模型包括的门网络和多个专家网络可以构成混合专家模型(Mixture of Experts,简称为MoE模型)。门网络和多个专家网络对输入信息进行处理的原理与MoE模型的处理原理类似。

例如,至少一个编码子模型中的每个编码子模型在对有偏样本文本进行处理时,可以先采用编码器对在前编码子模型得到的文本特征进行编码,得到编码特征。随后,采用门网络对编码特征进行处理,得到权重向量。该权重向量包括与门网络连接的多个专家网络中每个网络的权重。随后,可以根据该权重,采用与门网络连接的多个专家网络来对编码特征进行处理,得到该每个编码子模型输出的文本特征。例如,多个专家网络可以均对编码特征进行处理,得到多个处理结果。随后,根据与多个专家网络分别对应的权重,对该多个处理结果进行加权,从而得到该每个编码子模型输出的文本特征。

可以理解的是,至少一个编码子模型在多个编码子模型中的排列顺序可以根据实际需求进行设定。至少一个编码子模型可以为至少两个,至少两个编码子模型分别包括的专家网络的个数可以根据实际需求进行设定,该至少两个编码子模型包括的专家网络的个数可以相同或不同,本公开对此不做限定。

在操作S230,将文本理解特征输入输出层,得到预测理解信息。

根据本公开的实施例,输出层例如可以包括全连接层和/或归一化层等。该实施例可以将文本理解特征输入该输出层,经由输出层处理后得到预测理解信息。

例如,对于智能问答场景中的文本理解任务,输出层可以依次输出多个概率向量,每个概率向量包括针对预定字典中每个字的概率值。该实施例可以根据输出的每个概率向量中最大概率值所对应的字,得到答复文本中的一个字,将依次得到的多个字拼接,即可得到预测的答复文本,该实施例可以将该预测的答复文本作为预测理解信息。也可以将预测的答复文本及该预测的答复文本中每个字的概率值作为预测理解信息。

例如,对于智能搜索场景中的文本理解任务,输出层可以输出相似值向量,包括有偏样本文本与预定文本库中每个文本的相似值。该实施例可以将预定文本库中与有偏样本文本的相似值最高的文本作为预测理解信息。也可以将预定文本库中与有偏样本文本的相似值最高的文本及最高相似值作为预测理解信息。

在操作S240,根据有偏样本文本标注的真实理解信息和预测理解信息,对文本理解模型进行训练。

该实施例中,有偏样本文本标注的真实理解信息可以根据实际场景来确定。例如,对于智能问答场景,真实理解信息即为有偏样本文本的答复文本。对于智能搜索场景,真实理解信息即为预定文本库中与有偏样本文本相似的文本,也可以为表示预定文本库中的文本与有偏样本文本之间相似的标签1,或者表示不相似的标签0。

该实施例中,可以根据真实理解信息与预测理解信息之间的差异,来确定文本理解模型的损失值。例如,可以采用交叉熵损失函数等来计算损失值。最后以最小化该损失值为目标,采用反向传播算法调整文本理解模型的网络参数,实现对文本理解模型的训练。

本公开实施例通过在至少一个编码子模型中设置门网络和专家网络,可以使得文本理解模型根据不同类型的有偏样本文本选择不同的专家网络进行语义的理解,使得文本理解模型可以兼容对多种不同有偏类型的文本的处理。再者,通过单独根据有偏样本文本来训练文本理解模型,可以使得文本理解模型对多种不同有偏类型的文本进行针对性地学习,减少训练文本理解模型所需的样本量,提高文本理解模型的训练效率,同时避免模型学习到捷径,提高文本理解模型执行目标文本理解任务的准确率。本公开实施例通过在编码子模型中设置门网络和专家网络,可以根据实际需求,实时扩充有偏样本文本的有偏类型的个数。对该新添加的有偏类型,只需门网络自适应地调控为多个专家网络分配的权重即可,而无需针对新增的有偏类型更改文本理解模型的结构。

在一实施例中,可以将文本理解模型中除门网络和专家网络外的其他网络结构的网络参数作为定量,仅根据真实理解信息和预测理解信息,对至少一个编码子模型中包括的门网络和专家网络进行训练。即,在训练过程中,不对其他网络结构的网络参数进行调整。如此,可以加快文本理解模型的训练速度,且不会影响编码器在预训练阶段学习到的语义表征。因此,可以提高训练得到的文本理解模型对普通样本文本和有偏样本文本的理解能力,提升模型的准确率。再者,通过仅对门网络和专家网络进行训练,可以达到仅通过训练少量的模型参数就可以使得文本理解模型集成有准确理解多种有偏文本的能力,可以大大降低模型的迭代和维护成本。其中,普通样本文本为除有偏样本文本外的其他文本。

图3是根据本公开实施例的文本理解模型的训练方法的原理示意图。

如图3所示,该实施例300中,文本理解模型包括P个编码子模型310和输出层320。例如,多个编码子模型中的第i个编码子模型包括编码器311、门网络gate 312和M个专家网络313。可以理解的是,除了第i个编码子模型外,P个编码子模型中的其他子模型的结构可以与第i个编码子模型的结构相同,也可以仅包括第i个编码子模型中的编码器。其中,编码器例如可以为基于Transformer结构的编码器(即Transformer编码器)。其中,P、M均为大于1的自然数,i为取值区间[1,P]内的整数。

该实施例在训练文本理解模型时,确定的有偏样本文本例如可以包括N个有偏类型的有偏样本文本,具体可以包括第一有偏类型的样本文本Bias 1 301、第二有偏类型的样本文本Bias 2 302、...、第N有偏类型的样本文本Bias N 303。该实施例300可以针对该N个有偏类型的有偏样本文本中的每个样本文本,将该每个样本文本输入第一编码子模型,并经由P个编码子模型依次对该每个样本文本进行处理后,得到该每个样本文本的文本理解特征。将该文本理解特征输入输出层320,经由输出层320处理后,可以得到与该每个样本文本对应的预测理解信息304。类似地,该实施例可以针对确定的所有的有偏样本文本,均确定得到对应的预测理解信息304。该实施例可以根据预测理解信息与对应的有偏样本文本标注的真实理解信息之间的差异,对专家网络313和门网络gate 312进行训练。其中,N为大于等于1的自然数。

在一实施例中,如图3所示,在第i个编码子模型对第(i-1)个编码子模型得到的文本特征进行处理时,可以先采用编码器311对该文本特征进行编码,得到编码特征。随后,门网络gate 312例如可以根据对编码特征进行处理得到的权重,从M个专家网络313中选择K个专家网络,仅采用该K个专家网络对编码特征进行处理,而除K个专家网络外的其他专家网络无需对编码特征进行处理。其中,K个专家网络可以为权重较高的专家网络(即权重属于Top K的专家网络)。最后,该实施例300可以将该K个专家网络对编码特征进行处理所得到的K个初始文本特征进行加权,具体可以根据门网络gate 312计算得到的该K个专家网络的权重,来对K个初始文本特征进行加权,从而得到该第i个编码子模型310处理得到的文本特征。可以理解的是,在i为1时,第(i-1)个编码子模型得到的文本特征即为有偏样本文本。K为大于等于1且小于M的自然数。在一实施例中,K的取值例如可以为小于等于M/2的整数。

可以理解的是,对于除第i个编码子模型310外,多个编码子模型中包括门网络和专家网络的其他编码子模型,也可以采用类似的原理来得到各自处理得到的文本特征。

该实施例的门网络通过仅选择Top K的专家网络来对编码特征进行处理,可以在保证处理精度的基础上,节省计算资源,并因此降低文本理解模型的训练成本。再者,通过选择Top K的专家网络,可以使得M个专家网络作为整体具有针对多种有偏类型的文本进行处理的功能,使得训练得到的文本理解模型可以避开多种捷径。

在一实施例中,在有偏样本文本为至少两种有偏类型的样本文本的情况下,该实施例可以针对每种类型的样本文本,仅对针对该每种有偏类型的样本文本选中的专家网络进行训练,以使得该选中的专家网络更好地学习到该每种有偏类型,提高M个专家网络中各网络对一种特定有偏文本的处理能力,提高该M个专家网络中各网络的处理精度。

例如,在对文本理解模型进行训练时,可以根据针对每种有偏类型的样本文本得到的预测理解信息与相应的真实理解信息,确定该文本理解模型针对该每种有偏类型的预测损失值。例如,若每种有偏类型的样本文本的个数为Q个,该实施例可以根据针对Q个样本文本中每个样本文本得到的预测理解信息和该每个样本文本标注的真实理解信息之间的差异,确定一个损失值,从而得到Q个损失值。该实施例可以将该Q个损失值的平均值作为文本理解模型针对该每种有偏类型的预测损失值。例如,门网络gate 312针对该每种有偏类型的样本文本选择的专家网络包括M个专家网络中的专家1和专家M,则该实施例可以根据针对该每种有偏类型的预测损失值,采用反向传播算法对专家1、专家M和门网络gate 312进行训练。

在一实施例中,还可以将针对多种有偏类型的多个预测损失值的和作为文本理解模型的总损失值,以最小化该总损失值为目标,对文本理解模型包括的门网络和专家网络进行训练。

基于本公开训练得到的文本理解模型,本公开还提供了一种基于文本理解模型的文本理解方法,以下将结合图4对该方法进行描述。

图4是根据本公开实施例的基于文本理解模型的文本理解方法的流程示意图。

如图4所示,该实施例的基于文本理解模型的文本理解方法400可以包括操作S410~操作S420。其中,文本理解模型为上文描述的训练方法训练得到的模型。具体地,文本理解模型包括依次连接的多个编码子模型,多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络。

在操作S410,将待理解文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对待理解文本依次处理后,得到文本理解特征。

根据本公开的实施例,待理解文本例如可以为实时输入的搜索文本、问题文本或查询文本等,本公开对此不做限定。该操作S410的实现原理与上文描述的操作S220的实现原理类似,在此不再赘述。

在操作S420,将文本理解特征输入输出层,得到预测理解信息。该操作S420的实现原理与上文描述的操作S230的实现原理类似,且操作S420得到的预测理解信息与操作S230得到的预测理解信息类似,在此不再赘述。

根据本公开的实施例,包括门网络和多个专家网络的至少一个编码子模型中,每个编码子模型对待理解文本进行的处理可以先采用编码器对在前编码子模型得到的文本特征进行编码,得到编码特征。随后采用门网络对编码特征进行处理,得到多个专家网络中各网络的权重。随后根据权重,采用多个专家网络对编码特征进行处理,得到文本特征。可以理解的是,多个编码子模型中排在末位的编码子模型得到的文本特征为操作S410得到的文本理解特征。在每个编码子模型为排在首位的编码子模型的情况下,在前编码子模型得到的文本特征为待理解文本。

根据本公开的实施例,上述采用多个专家网络对编码特征进行处理得到文本特征的步骤可以包括:先根据权重,确定多个专家网络中权重较大的K个专家网络。随后采用K个专家网络分别对编码特征进行处理,得到K个初始文本特征。随后根据K个专家网络的权重对K个初始文本特征进行加权,得到文本特征。其中,K为大于等于1的自然数,且K的取值小于所述多个专家网络的总个数。

基于本公开提供的文本理解模型的训练方法,本公开还提供了一种文本理解模型的训练装置。以下将结合图5对该装置进行详细描述。

图5是根据本公开实施例的文本理解模型的训练装置的结构框图。

如图5所示,该实施例的文本理解模型的训练装置500可以包括样本文本确定模块510、文本理解模块520、预测信息获得模块530和模型训练模块540。其中,文本理解模型包括依次连接的多个编码子模型和输出层,多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络。

样本文本确定模块510用于确定与目标文本理解任务对应的有偏样本文本。在一实施例中,样本文本确定模块510可以用于执行上文描述的操作S210,在此不再赘述。

文本理解模块520用于将有偏样本文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对有偏样本文本依次处理后,得到文本理解特征。在一实施例中,文本理解模块520可以用于执行上文描述的操作S220,在此不再赘述。

预测信息获得模块530用于将文本理解特征输入输出层,得到预测理解信息。在一实施例中,预测信息获得模块530可以用于执行上文描述的操作S230,在此不再赘述。

模型训练模块540用于根据样本文本标注的真实理解信息和预测理解信息,对文本理解模型进行训练。在一实施例中,模型训练模块540可以用于执行上文描述的操作S240,在此不再赘述。

根据本公开的实施例,上述文本理解模块520可以包括编码子模块、权重获得子模块和特征获得子模块。编码子模块用于针对至少一个编码子模型中的每个编码子模型,采用编码器对在前编码子模型得到的文本特征进行编码,得到编码特征。权重获得子模块用于采用门网络对编码特征进行处理,得到多个专家网络中各网络的权重。特征获得子模块用于根据权重,采用多个专家网络对编码特征进行处理,得到文本特征。其中,多个编码子模型中排在末位的编码子模型得到的文本特征为文本理解特征;在每个编码子模型为排在首位的编码子模型的情况下,在前编码子模型得到的文本特征为有偏样本文本。

根据本公开的实施例,特征获得子模块可以包括专家筛选单元、初始特征获得单元和特征加权单元。专家筛选单元用于根据权重,确定多个专家网络中权重较大的K个专家网络。初始特征获得单元用于采用K个专家网络分别对编码特征进行处理,得到K个初始文本特征。特征加权单元用于根据K个专家网络的权重对K个初始文本特征进行加权,得到文本特征。其中,K为大于等于1的自然数,且K的取值小于多个专家网络的总个数。

根据本公开的实施例,上述模型训练模块540可以包括定量确定子模块和训练子模块。定量确定子模块用于确定编码器的网络参数的取值和多个编码子模型中除至少一个编码子模型外的其他编码子模型的网络参数为定量。训练子模块用于根据真实理解信息和预测理解信息,对至少一个编码子模型包括的门网络和专家网络进行训练。

根据本公开的实施例,有偏样本文本包括至少两种有偏类型的样本文本,上述模型训练模块540可以包括损失值确定子模块和训练子模块。损失值确定子模块用于根据每种有偏类型的样本文本标注的真实理解信息和针对每种有偏类型的样本文本得到的预测理解信息,确定文本理解模型针对每种有偏类型的预测损失值。训练子模块用于根据预测损失值,对门网络和多个专家网络中针对每种有偏类型的样本文本进行了处理的专家网络进行训练。

根据本公开的实施例,有偏样本文本的有偏类型包括以下类型中的至少一种:包括目标词汇的类型,目标词汇与包括目标词汇的样本文本所标注的真实理解信息之间具有非绝对关联关系;部分文本为目标文本的类型,目标文本为文本理解模型针对包括目标文本的样本文本成功执行目标文本理解任务所需的最短文本;与预定文本库中的至少一个文本的词汇重叠率大于预定重叠率的类型。

根据本公开的实施例,编码器包括Transformer架构的编码器。

基于本公开提供的基于文本理解模型的文本理解方法,本公开还提供了一种基于文本理解模型的文本理解装置。以下将结合图6对该装置进行详细描述。

图6是根据本公开实施例的基于文本理解模型的文本理解装置的结构框图。

如图6所示,该实施例的基于文本理解模型的文本理解装置600可以包括文本理解模块610和预测信息获得模块620。其中,文本理解模型包括依次连接的多个编码子模型;多个编码子模型中的至少一个编码子模型包括依次连接的编码器、门网络和多个专家网络,该文本理解模型可以为采用图5描述的文本理解模型的训练装置训练得到的模型。

文本理解模块610用于将待理解文本输入多个编码子模型中排在首位的编码子模型,经由多个编码子模型对待理解文本依次处理后,得到文本理解特征。在一实施例中,文本理解模块610可以用于执行上文描述的操作S410,在此不再赘述。

预测信息获得模块620用于将文本理解特征输入输出层,得到预测理解信息。在一实施例中,预测信息获得模块620可以用于执行上文描述的操作S420,在此不再赘述。

根据本公开的实施例,上述文本理解模块610可以包括编码子模块、权重获得子模块和特征获得子模块。编码子模块用于针对至少一个编码子模型中的每个编码子模型,采用编码器对在前编码子模型得到的文本特征进行编码,得到编码特征。权重获得子模块用于采用门网络对编码特征进行处理,得到多个专家网络中各网络的权重。特征获得子模块用于根据权重,采用多个专家网络对编码特征进行处理,得到文本特征。其中,多个编码子模型中排在末位的编码子模型得到的文本特征为文本理解特征;在每个编码子模型为排在首位的编码子模型的情况下,在前编码子模型得到的文本特征为待理解文本。

根据本公开的实施例,上述特征获得子模块可以包括专家筛选单元、初始特征获得单元和特征加权单元。专家筛选单元用于根据权重,确定多个专家网络中权重较大的K个专家网络。初始特征获得单元用于采用K个专家网络分别对编码特征进行处理,得到K个初始文本特征。特征加权单元用于根据K个专家网络的权重对K个初始文本特征进行加权,得到文本特征。其中,K为大于等于1的自然数,且K的取值小于多个专家网络的总个数。

需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开实施例的方法的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如文本理解模型的训练方法和/或基于文本理解模型的文本理解方法。例如,在一些实施例中,文本理解模型的训练方法和/或基于文本理解模型的文本理解方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的文本理解模型的训练方法和/或基于文本理解模型的文本理解方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本理解模型的训练方法和/或基于文本理解模型的文本理解方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号