首页> 中国专利> 语音意图识别模型的训练方法、语音意图识别方法和装置

语音意图识别模型的训练方法、语音意图识别方法和装置

摘要

本公开关于一种语音意图识别模型的训练方法、语音意图识别方法和装置,训练方法包括:获取文本样本和携带有语义标签的第一语音样本,其中,第一语音样本与文本样本的内容对应,语义标签为文本样本的文本语义特征;利用第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型,其中,预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络;获取携带有意图标签的第二语音样本;利用第二语音样本,对预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。

著录项

  • 公开/公告号CN114974224A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 北京达佳互联信息技术有限公司;

    申请/专利号CN202210767379.3

  • 发明设计人 付嘉懿;李昊;赵媛媛;王晓瑞;

    申请日2022-06-30

  • 分类号G10L15/06(2013.01);G10L15/22(2006.01);

  • 代理机构北京铭硕知识产权代理有限公司 11286;北京铭硕知识产权代理有限公司 11286;

  • 代理人苏银虹;王兆赓

  • 地址 100085 北京市海淀区上地西路6号1幢1层101D1-7

  • 入库时间 2023-06-19 16:34:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G10L15/06 专利申请号:2022107673793 申请日:20220630

    实质审查的生效

说明书

技术领域

本公开涉及语音识别技术领域,尤其涉及一种语音意图识别模型的训练方法、语音意图识别方法和装置。

背景技术

传统的语音意图识别较多用于人机交互领域,例如智能家居和手机语音助手,在这些场景下,语音往往包含简单的指令性内容,语音内容本身就基本等同于意图。在这种场景下,传统的语音意图识别方法常常应用两阶段模型,第一步先经过ASR(AutomaticSpeech Recognition,自动语音识别)模型,将语音转换为文字(ASR结果),第二步再将ASR结果输入NLU(Natural Language Understanding,自然语言理解)模型,输出预定义好的意图类别。

而随着应用的拓展,越来越需要对大量陈述性的语音内容进行意图识别,但陈述性内容本身常常并不等同于意图。例如,电商直播中,主播可能需要通过闲聊家常、发红包来营造气氛,语音本身的内容并不等同于营造气氛的意图。此时若应用传统的两阶段模型,会存在更加准确的语音识别不一定能使得整体意图识别的准确率更优的问题,使得两个模型的优化目标不一定一致,难以保障语音意图识别的准确率。

为适应这类新场景,相关技术中存在另一种方法,构造语音内容理解的端到端E2E-SLU(End to End Spoken Language Understanding)模型,输入语音信号,输出意图类别。相比传统方法,这种方法全局优化目标一致,准确率更优,然而这种方法的意图识别准确率严重依赖于人工标注的语音-意图成对训练数据的数据量。

发明内容

本公开提供一种语音意图识别模型的训练方法、语音意图识别方法和装置,以至少解决相关技术中的严重依赖人工标注的训练数据的数据量的问题,也可不解决任何上述问题。

根据本公开的第一方面,提供了一种语音意图识别模型的训练方法,所述训练方法包括:获取文本样本和携带有语义标签的第一语音样本,其中,所述第一语音样本与所述文本样本的内容对应,所述语义标签为所述文本样本的文本语义特征;利用所述第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型,其中,所述预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络;获取携带有意图标签的第二语音样本;利用所述第二语音样本,对所述预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。

可选地,所述利用所述第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,包括:将所述第一语音样本的语音特征输入所述待训练的语音意图识别模型中的语义提取网络,得到所述第一语音样本的第一语音语义特征;确定所述第一语音语义特征和所述文本语义特征之间的语义相似度;基于所述语义相似度,调整所述待训练的语音意图识别模型中的语义提取网络的参数,以对所述待训练的语音意图识别模型中的语义提取网络进行预训练。

可选地,所述确定所述第一语音语义特征和所述文本语义特征之间的语义相似度,包括:分别确定所述第一语音语义特征对应的语音表示向量和所述文本语义特征对应的文本表示向量;确定所述语音表示向量和所述文本表示向量之间的语义相似度,作为所述第一语音语义特征和所述文本语义特征之间的语义相似度。

可选地,所述确定所述语音语义特征对应的语音表示向量,包括:对所述第一语音语义特征进行时间维度上的池化处理,得到所述语音表示向量。

可选地,确定所述文本语义特征对应的文本表示向量,包括:将所述文本语义特征的句首字符作为所述文本表示向量;或对所述文本语义特征进行时间维度上的池化处理,得到所述文本表示向量。

可选地,所述利用所述第二语音样本,对所述预训练的语音意图识别模型进行训练,包括:将所述第二语音样本的语音特征输入所述预训练的语义提取网络,得到所述第二语音样本的第二语音语义特征;将所述第二语音语义特征输入所述待训练的意图识别网络,得到预估意图;根据所述预估意图和所述意图标签,确定损失值;基于所述损失值,调整所述待训练的意图识别网络的参数,或调整所述预训练的语义提取网络及所述待训练的意图识别网络的参数,以对所述预训练的语音意图识别模型进行训练。

根据本公开的第二方面,提供了一种语音意图识别方法,所述语音意图识别方法包括:获取待识别语音;将所述待识别语音的语音特征输入语音意图识别模型,得到所述待识别语音的预估意图,其中,所述语音意图识别模型是利用上述的训练方法训练得到的。

根据本公开的第三方面,提供了一种语音意图识别模型的训练装置,所述训练装置包括:获取单元,被配置为:获取文本样本和携带有语义标签的第一语音样本,其中,所述第一语音样本与所述文本样本的内容对应,所述语义标签为所述文本样本的文本语义特征;第一训练单元,被配置为:利用所述第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型,其中,所述预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络;所述获取单元还被配置为:获取携带有意图标签的第二语音样本;第二训练单元,被配置为:利用所述第二语音样本,对所述预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。

可选地,所述第一训练单元还被配置为:将所述第一语音样本的语音特征输入所述待训练的语音意图识别模型中的语义提取网络,得到所述第一语音样本的第一语音语义特征;确定所述第一语音语义特征和所述文本语义特征之间的语义相似度;基于所述语义相似度,调整所述待训练的语音意图识别模型中的语义提取网络的参数,以对所述待训练的语音意图识别模型中的语义提取网络进行预训练。

可选地,所述第一训练单元还被配置为:分别确定所述第一语音语义特征对应的语音表示向量和所述文本语义特征对应的文本表示向量;确定所述语音表示向量和所述文本表示向量之间的语义相似度,作为所述第一语音语义特征和所述文本语义特征之间的语义相似度。

可选地,所述第一训练单元还被配置为:对所述第一语音语义特征进行时间维度上的池化处理,得到所述语音表示向量。

可选地,所述第一训练单元还被配置为:将所述文本语义特征的句首字符作为所述文本表示向量;或对所述文本语义特征进行时间维度上的池化处理,得到所述文本表示向量。

可选地,所述第二训练单元还被配置为:将所述第二语音样本的语音特征输入所述预训练的语义提取网络,得到所述第二语音样本的第二语音语义特征;将所述第二语音语义特征输入所述待训练的意图识别网络,得到预估意图;根据所述预估意图和所述意图标签,确定损失值;基于所述损失值,调整所述待训练的意图识别网络的参数,或调整所述预训练的语义提取网络及所述待训练的意图识别网络的参数,以对所述预训练的语音意图识别模型进行训练。

根据本公开的第四方面,提供了一种语音意图识别装置,所述语音意图识别装置包括:获取单元,被配置为:获取待识别语音;识别单元,被配置为:将所述待识别语音的语音特征输入语音意图识别模型,得到所述待识别语音的预估意图,其中,所述语音意图识别模型是利用上述的训练方法训练得到的。

根据本公开的第五方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的语音意图识别模型的训练方法或语音意图识别方法。

根据本公开的第六方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的语音意图识别模型的训练方法或语音意图识别方法。

根据本公开的第七方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现根据本公开的语音意图识别模型的训练方法或语音意图识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

根据本公开的实施例的语音意图识别模型的训练方法、语音意图识别方法和装置,语音意图识别模型为端到端模型,全局优化目标一致,易于保障识别准确率,且只需要一个模型,系统架构简单,可降低对计算资源的消耗。此外,通过采用两阶段的模型训练方法,在第一阶段使用大量易获取的语音-文本成对数据,即第一语音样本和文本样本,来预训练语义提取网络,可提高预训练得到的语义提取网络的准确率,在第二阶段再利用少量的人工标注的语音-意图成对数据,即携带有意图标签的第二语音样本,就能够实现语音意图识别模型的训练。进一步来说,人工标注训练数据的成本较高,所以获得大量的人工标注成对数据的难度较大,根据本公开的实施例能够在保障模型准确率的情况下降低训练数据的准备成本,提高模型训练的可行性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音意图识别模型的训练方法的流程图。

图2是示出根据本公开的示例性实施例的语音意图识别模型的第一阶段训练的流程示意图。

图3是示出根据本公开的示例性实施例的语音意图识别模型的第二阶段训练的流程示意图。

图4是示出根据本公开的示例性实施例的语音意图识别方法的流程图。

图5是示出根据本公开的示例性实施例的语音意图识别模型的训练装置的框图。

图6是示出根据本公开的示例性实施例的语音意图识别装置的框图。

图7是示出根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。

传统的语音意图识别较多用于人机交互领域,例如智能家居和手机语音助手,在这些场景下,语音往往包含简单的指令性内容,语音内容本身就基本等同于意图,具体表达方式的变化相对较少。例如,意图是“打开窗帘”,对应的语音内容可以是“打开窗帘”、“开窗帘”、“把窗帘打开”;又比如意图是“播放音乐”,具体表达可以是“播放音乐”、“放首歌”、“来点音乐”。

在这种场景下,传统的语音意图识别方法常常应用两阶段模型,第一步先经过ASR模型,将语音转换为文字(ASR结果),第二步再将ASR结果输入NLU模型,输出预定义好的意图类别。

而随着电商直播的兴起,越来越多的商家开始在经营线下或者线上店铺的同时,进行直播带货。在电商直播过程中,主播主要通过讲解和展示商品来推动成交过程,其中主播讲解又可以区分为营造气氛、介绍商品、回答观众问题等意图,不同意图往往表示当前处在售卖商品过程中的不同环节。不同环节直播平台对于电商直播的流量分发策略不同。因此,对于电商直播中主播的讲解意图进行识别是非常重要的工作。

不同于传统场景,对于以电商直播为例的新场景,待识别语音(例如主播的讲解语音)内容往往较长,且为陈述性内容,讲解内容本身并不等同于意图,相同意图可以有大量不同的具体表达方式。此时若应用传统的两阶段模型,会存在更加准确的语音识别不一定能使得整体意图识别的准确率更优的问题,使得两个模型的优化目标不一定一致,难以保障语音意图识别的准确率。同时,两个模型的系统架构需要消耗较多的计算资源。

为适应这类新场景,相关技术中存在另一种方法,构造语音内容理解的端到端E2E-SLU模型,输入语音信号,输出意图类别。相比传统方法,这种方法具有两个优点:1、全局优化目标一致,准确率更优;2、只需要一个模型,系统架构更加简单,往往对计算资源的消耗更低,然而这种方法的意图识别准确率严重依赖于人工标注的语音-意图成对训练数据的数据量。

根据本公开的示例性实施例的语音意图识别模型同样为端到端模型,但包括语义提取网络和意图识别网络,其中,语义提取网络用于提取语音的语音语义特征,作为模型的中间数据,并不予以输出,意图识别网络用于基于语音语义特征得到预估意图,因而该语音意图识别模型具备端到端模型的全部优势。此外,根据本公开的示例性实施例的语音意图识别模型的训练方法采用两阶段的训练方法,在第一阶段使用大量易获取的语音-文本成对数据来预训练语义提取网络,可提高预训练得到的语义提取网络的准确率,在第二阶段再利用少量的人工标注的语音-意图成对数据就能够实现语音意图识别模型的训练。进一步来说,人工标注训练数据的成本较高,所以获得大量的人工标注成对数据的难度较大,根据本公开的示例性实施例能够在保障模型准确率的情况下降低训练数据的准备成本,提高模型训练的可行性。

下面,将参照图1至图5具体描述根据本公开的示例性实施例的语音意图识别模型的训练方法、语音意图识别模型的训练装置、语音意图识别方法和语音意图识别装置。

图1是示出根据本公开的示例性实施例的语音意图识别模型的训练方法的流程图。应理解,根据本公开的示例性实施例的语音意图识别模型的训练方法可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中实现,也可以在诸如服务器的设备中实现训练。

参照图1,在步骤101,获取文本样本和携带有语义标签的第一语音样本。

其中,第一语音样本与文本样本的内容对应,构成语音-文本成对数据,这种数据是ASR模型的训练数据,而语音识别是已经比较成熟的技术,因此这种成对数据较易获取。

语义标签为文本样本的文本语义特征。其中,要得到文本样本的文本语义特征,需要先提取文本样本的文本特征,文本特征提取是一种成熟的技术,作为示例,可通过文字查表来转换提取文本特征,本公开对此不作限制。得到文本特征后,可利用文本语义提取网络来提取文本语义特征。文本语义提取网络可采用海量无监督文本数据预训练得到的掩码语言模型,已有较多开源版本。作为示例,文本语义提取网络可以是BERT(BidirectionalEncoder Representation from Transformers,深度双向自注意力网络),也可以替换为效果相当的RoBERTa(Robustly Optimized BERT Pretraining Approach,鲁棒深度双向自注意力网络)或MacBERT(MLM as correction BERT,掩码矫正的深度双向自注意力网络),本公开对此不作限制。

在步骤102,利用第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型。其中,预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络,换言之,此处涉及对语音意图识别模型的第一阶段训练,具体是对语义提取网络的预训练。通过在此阶段将第一语音样本对应的文本样本的文本语义特征作为第一语音样本的语义标签,能够将模仿文本语义特征提取语音语义特征作为语义提取网络的提取目标,实现对语义提取网络的预训练,可以令语义提取网络学习到丰富的语义信息,提升预训练的语义提取网络的提取准确率,保障后续意图识别网络的识别准确率。作为示例,语义提取网络可采用带卷积的深度自注意力网络(Conformer),Conformer是语音领域效果较好的神经网络,尚未用于语音意图识别领域。

图2是示出根据本公开的示例性实施例的语音意图识别模型的第一阶段训练的流程示意图。

参照图2,可选地,步骤102进一步包括但不限于如下三个步骤:

第一步,将第一语音样本的语音特征输入待训练的语音意图识别模型中的语义提取网络,得到所述第一语音样本的第一语音语义特征。其中,语音特征提取作为一种成熟的技术,在此不作展开赘述。

第二步,确定第一语音语义特征和文本语义特征之间的语义相似度。通过确定语义相似度,可以为训练提供明确的参考标准。

第二步例如可包括:分别确定第一语音语义特征对应的语音表示向量和文本语义特征对应的文本表示向量;确定语音表示向量和文本表示向量之间的语义相似度,作为第一语音语义特征和文本语义特征之间的语义相似度。通过将第一语音语义特征和文本语义特征分别转换为句子级别的语音表示向量和文本表示向量,可直接计算两个向量的相似度,既能减少计算量,又可简化相似度计算。作为示例,可使用余弦相似度来计算语义相似度。应理解,此处提到句子级别,是因为语音数据和文本数据通常都会经过预处理,按照句子进行分段,所以一个语音样本或一个文本样本往往就是一个句子的内容,语音样本的语音表示向量或文本样本的文本表示向量就是句子级别的表示向量。

可选地,语义提取网络输出的第一语音语义特征可以是矩阵形式,每个时间单位(例如一个音频帧)对应提取一个特征向量,一个第一语音样本的所有时间单位的特征向量汇集在一起,形成一个特征矩阵。在确定语音表示向量时,可对第一语音语义特征进行时间维度上的池化处理,例如平均池化处理,又如最大池化处理,将特征矩阵转换为特征向量,得到语音表示向量,从而在时间维度上浓缩信息量,有助于在保留语音基本信息的情况下减少特征数据量。当然,也可采用其他可行的转换方式,本公开对此不作限制。

应理解,在文本语义提取网络为BERT、RoBERTa或MacBERT时,由于这类网络在输出文本语义特征时会在句首增加一个字符,用于表征这句话的文本表示,所以可以直接取文本语义特征的句首字符作为句子级别的文本表示向量,有助于简化文本表示向量的提取。对于不输出这个句首字符的网络,则可对文本语义特征同样执行前述的时间维度上的池化处理或做其他转化处理,同样能够在时间维度上浓缩信息量,有助于在保留文本基本信息的情况下减少特征数据量。应理解,以中文文本为例,对文本的一种常见处理方式是先通过分词处理将一句文本划分为多个词,然后对每个词进行特征提取,此时文本的一个时间单位就是一个词,文本的时间维度可以视为是词的维度,一个文本样本的所有词的文本语义特征向量汇集在一起,形成一个特征矩阵,作为这个文本样本的文本语义特征。

第三步,基于语义相似度,调整待训练的语音意图识别模型中的语义提取网络的参数,以对待训练的语音意图识别模型中的语义提取网络进行预训练。该过程可保持文本语义提取网络的参数固定不更新,并以最大化语义相似度为目标,进行语义提取网络的参数更新,经过不断的更新迭代,就可以完成语义提取网络的预训练,得到一个从文本语义提取网络中学习到丰富语义信息的语义提取网络。作为示例,参数更新方法可为深度神经网络常用的反向传播法,训练结束的条件可以是计算结果收敛,即语义相似度的提升率小于阈值,也就是语义相似度的变化趋于平稳,也可以是迭代步数达到设定步数,本公开对此不作限制。

应理解,为便于对应反映第一语音语义特征和文本语义特征的提取过程,将二者以并列的形式绘制在图2中,这并非是对二者执行时间的限制,实际训练时,可以同步提取第一语音语义特征和文本语音特征,也可以异步提取,这都是本公开的实现方式,落入本公开的保护范围之内。

返回参照图1,在步骤103,获取携带有意图标签的第二语音样本。该步骤获取的就是人工标注的语音-意图成对数据,由于步骤101和步骤102完成了语义提取网络的预训练,所以该步骤可以仅获取少量的人工标注数据,降低数据准备成本。

在步骤104,利用第二语音样本,对预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。

图3是示出根据本公开的示例性实施例的语音意图识别模型的第二阶段训练的流程示意图。

参照图3,先提取第二语音样本的语音特征,再将该语音特征输入预训练的语音意图识别模型,预训练的语音意图识别模型具体是将预训练的语义提取网络导入待训练的语音意图识别模型中得到的,也就是包括预训练的语义提取网络和待训练的意图识别网络。预训练的语音意图识别模型可输出预估意图,基于预估意图和意图标签可确定损失值,进而根据损失值调整预训练的语音意图识别模型的参数,对预训练的语音意图识别模型进行训练。

具体地,步骤104例如可包括:将第二语音样本的语音特征输入预训练的语义提取网络,得到第二语音样本的第二语音语义特征;将第二语音语义特征输入待训练的意图识别网络,得到预估意图;根据预估意图和意图标签,确定损失值;基于损失值,调整待训练的意图识别网络的参数,或调整预训练的语义提取网络及待训练的意图识别网络的参数,以对预训练的语音意图识别模型进行训练。该步骤的训练方式、训练结束条件与常规的模型训练相同,在此不作赘述。需说明的是,语义提取网络经过预训练后,已经具备一定的准确率,在步骤104中,可按需选择是仅调整待训练的意图识别网络的参数,还是同时调整预训练的语义提取网络及待训练的意图识别网络的参数。前者可大幅减少调整的参数量,提升训练效率,后者即使调整的参数量相对前者较大,但由于语义提取网络已经经过预训练,整个调参计算会更容易收敛,也就是相对于未经过于预训练的情况,能够缩短训练耗时,因而同样有助于提升训练效率。作为示例,可以在确定的损失值不大时仅调整意图识别网络的参数,在确定的损失值较大时同时调整语义提取网络及意图识别网络的参数,当然也可以配置其他的判断条件,或者由工作人员人为决定要调整参数的网络,本公开对此不作限制。

图4是示出根据本公开的示例性实施例的语音意图识别方法的流程图。应理解,根据本公开的示例性实施例的语音意图识别方法可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中实现,也可以在诸如服务器的设备中实现。

参照图4,在步骤401,获取待识别语音。待识别语音也就是需要识别其意图的语音,每个待识别语音可为一句话的语音。

在步骤402,将待识别语音的语音特征输入语音意图识别模型,得到待识别语音的预估意图。其中,语音意图识别模型是利用上述的语音意图识别模型的训练方法训练得到的,因而该语音意图识别方法具备更加本公开的示例性实施例的语音意图识别模型的训练方法的全部有益效果,在此不作赘述。应理解,在语音意图识别模型执行计算时,会先由语义提取网络提取待识别语音的语音语义特征,再由意图识别网络计算出预估意图。

图5是示出根据本公开的示例性实施例的语音意图识别模型的训练装置的框图。应理解,根据本公开的示例性实施例的语音意图识别模型的训练装置可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中以软件、硬件或软件硬件结合的方式实现,也可以在诸如服务器的设备中实现训练。

参照图5,语音意图识别模型的训练装置500包括获取单元501、第一训练单元502、第二训练单元503。

获取单元501可获取文本样本和携带有语义标签的第一语音样本,其中,第一语音样本与文本样本的内容对应,语义标签为文本样本的文本语义特征。

第一训练单元502可利用第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型,其中,预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络。

可选地,第一训练单元502还可将第一语音样本的语音特征输入待训练的语音意图识别模型中的语义提取网络,得到第一语音样本的第一语音语义特征;确定第一语音语义特征和文本语义特征之间的语义相似度;基于语义相似度,调整待训练的语音意图识别模型中的语义提取网络的参数,以对待训练的语音意图识别模型中的语义提取网络进行预训练。

可选地,第一训练单元502还可分别确定第一语音语义特征对应的语音表示向量和文本语义特征对应的文本表示向量;确定语音表示向量和文本表示向量之间的语义相似度,作为第一语音语义特征和文本语义特征之间的语义相似度。

可选地,第一训练单元502还可对第一语音语义特征进行时间维度上的池化处理,得到语音表示向量。

可选地,第一训练单元502还可将文本语义特征的句首字符作为文本表示向量;或对文本语义特征进行时间维度上的池化处理,得到文本表示向量。

获取单元501还可获取携带有意图标签的第二语音样本。

第二训练单元503可利用第二语音样本,对预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。

可选地,第二训练单元503还可将第二语音样本的语音特征输入预训练的语义提取网络,得到第二语音样本的第二语音语义特征;将第二语音语义特征输入待训练的意图识别网络,得到预估意图;根据预估意图和意图标签,确定损失值;基于损失值,调整待训练的意图识别网络的参数,或调整预训练的语义提取网络及待训练的意图识别网络的参数,以对预训练的语音意图识别模型进行训练。

可结合参照图1至图3描述的语音意图识别模型的训练方法,理解语音意图识别模型的训练装置500中对应的各个单元的操作。

图6是示出根据本公开的示例性实施例的语音意图识别装置的框图。应理解,根据本公开的示例性实施例的语音意图识别装置可以在诸如智能手机、平板电脑、个人电脑(PC)的终端设备中以软件、硬件或软件硬件结合的方式实现,也可以在诸如服务器的设备中实现。

参照图6,语音意图识别装置600包括获取单元601、识别单元602。

获取单元601可获取待识别语音。

识别单元602可将待识别语音的语音特征输入语音意图识别模型,得到待识别语音的预估意图,其中,语音意图识别模型是利用上述的训练方法训练得到的。应理解,在识别单元602运行语音意图识别模型来执行计算时,会先由语义提取网络提取待识别语音的语音语义特征,再由意图识别网络计算出预估意图。

可结合参照图4描述的语音意图识别方法,理解语音意图识别装置600中对应的各个单元的操作。

图7是根据本公开的示例性实施例的电子设备的框图。

参照图7,电子设备700包括至少一个存储器701和至少一个处理器702,所述至少一个存储器701中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器702执行时,执行根据本公开的示例性实施例的语音意图识别模型的训练方法或语音意图识别方法。

作为示例,电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备700并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。

在电子设备700中,处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器702可运行存储在存储器701中的指令或代码,其中,存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。

存储器701可与处理器702集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器701可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器702能够读取存储在存储器中的文件。

此外,电子设备700还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例,还可提供一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的示例性实施例的语音意图识别模型的训练方法或语音意图识别方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品包括计算机指令,计算机指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的示例性实施例的语音意图识别模型的训练方法或语音意图识别方法。

根据本公开的示例性实施例的语音意图识别模型的训练方法、语音意图识别方法和装置,语音意图识别模型为端到端模型,全局优化目标一致,易于保障识别准确率,且只需要一个模型,系统架构简单,可降低对计算资源的消耗。此外,通过采用两阶段的模型训练方法,在第一阶段使用大量易获取的语音-文本成对数据,即第一语音样本和文本样本,来预训练语义提取网络,可提高预训练得到的语义提取网络的准确率,在第二阶段再利用少量的人工标注的语音-意图成对数据,即携带有意图标签的第二语音样本,就能够实现语音意图识别模型的训练。进一步来说,人工标注训练数据的成本较高,所以获得大量的人工标注成对数据的难度较大,根据本公开的示例性实施例能够在保障模型准确率的情况下降低训练数据的准备成本,提高模型训练的可行性。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号