首页> 中国专利> 语言模型训练方法、应用方法、装置、设备及存储介质

语言模型训练方法、应用方法、装置、设备及存储介质

摘要

本申请公开了语言模型训练方法、应用方法、装置、设备及存储介质,涉及人工智能技术、智能交通、语音识别技术、大数据和深度学习。具体实现方案为:接收来自客户端的误识别指令,误识别指令中携带客户端的标识信息及误识别指示信息;根据标识信息,确定误识别的目标语音信号及误识别结果,误识别结果是将目标语音信号输入语言模型得到的;基于误识别指示信息、误识别结果和目标语音信号,训练语言模型得到更新后的语言模型。通过本申请的方案,可以提升误识别的纠正效率。

著录项

  • 公开/公告号CN112466295A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202011330671.6

  • 发明设计人 陈建哲;

    申请日2020-11-24

  • 分类号G10L15/06(20130101);G10L15/22(20060101);

  • 代理机构11205 北京同立钧成知识产权代理有限公司;

  • 代理人刘丹;刘芳

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本申请实施例涉及计算机领域中的人工智能技术、智能交通、语音识别技术、大数据和深度学习,尤其涉及一种语言模型训练方法、应用方法、装置、设备及存储介质。

背景技术

随着科技的不断发展,语音识别技术日趋完善。由于语音输入的便利性,通过语音进行人机交互的方式深受用户喜爱,被广泛应用于各个领域,例如自动驾驶等

实际应用中,用户通过发出语音表达具体需求,相应地终端设备接收该语音并基于语音识别技术对该语音做出响应。由于语音识别技术存在误识别的概率,因此终端设备反馈的语音识别结果可能是错误的。目前,该误识别会被反馈至研发处,由研发人员进行研发纠正。

发明内容

本申请提供了一种用于快速纠正误识别的语言模型训练方法、应用方法、装置、设备及存储介质。

根据本申请的第一方面,提供了一种语言模型训练方法,包括:

接收来自客户端的误识别指令,误识别指令中携带客户端的标识信息及误识别指示信息,误识别指令是由客户端响应于检测到的用户输入的误识别指示信息发出的;

根据标识信息,确定误识别的目标语音信号及误识别结果,误识别结果是将目标语音信号输入语言模型得到的;

基于误识别指示信息、误识别结果和目标语音信号,训练语言模型得到更新后的语言模型。

根据本申请的第二方面,提供了一种语言模型应用方法,包括:

接收来自客户端的待识别语音信号;

将待识别语音信号输入根据如第一方面中任一项所述的方法得到的更新后的语言模型,得到待识别语音信号对应的语音识别结果;

向所述客户端发送所述待识别语音信号对应的语音识别结果。

根据本申请的第三方面,提供了一种语言模型训练装置,包括:

接收模块,用于接收来自客户端的误识别指令,误识别指令中携带客户端的标识信息及误识别指示信息,误识别指令是由客户端响应于检测到的用户输入的误识别指示信息发出的;

确定模块,用于根据标识信息,确定误识别的目标语音信号及误识别结果,误识别结果是将目标语音信号输入语言模型得到的;

训练模块,用于基于误识别指示信息、误识别结果和目标语音信号,训练语言模型得到更新后的语言模型。

根据本申请的第四方面,提供了一种语言模型应用装置,包括:

接收模块,用于接收来自客户端的待识别语音信号;

处理模块,用于将待识别语音信号输入根据如第一方面中任一项所述的方法得到的更新后的语言模型,得到待识别语音信号对应的语音识别结果;

发送模块,用于向所述客户端发送待识别语音信号对应的语音识别结果。

根据本申请的第五方面,提供了一种电子设备,包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。

根据本申请的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面或第二方面中任一项所述的方法。

根据本申请的第七方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令用于使所述计算机执行第一方面或第二方面中任一项所述的方法。

根据本申请的技术解决了由研发人员对误识别进行研发纠正所存在的效率低的问题,提高了误识别的纠正效率。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请第一实施例的示意图;

图2是音字转换的示例图;

图3是根据本申请第二实施例的示意图;

图4是根据本申请第三实施例的示意图;

图5是根据本申请第四实施例的示意图;

图6是根据本申请第五实施例的示意图;

图7是根据本申请第六实施例的示意图;

图8是用来实现本申请实施例的语言模型训练和/或语言模型应用的电子设备的框图;

图9是可以实现本申请实施例的语言模型训练的场景图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在介绍本申请的技术方案之前,首先结合本申请的一个具体应用场景引出现有技术存在的问题以及本申请的技术构思过程。

终端设备通过语音识别技术响应用户的需求,需要进行语音识别和语义理解这两个过程。具体地,终端设备先对用户输入的语音进行识别获得语音识别结果,然后对语音识别结果进行语义理解,以获得用户的需求而进行响应。本申请主要涉及语义理解,即音字转换过程(拼音转换为字符的过程)。

由于语音识别存在各种各样的说法,从而造成有各种误识别的案例,以下进行示例说明:

例如,以车载语音设备为例,用户与车载语音设备进行人机交互。例如,用户讲了“jiang ge xiao hua(讲个笑话—有意思的话术)”,但车载语音设备识别并在其显示屏输出的结果为“蒋个笑话(无意义的话术)”,此时出现误识别,需要进行误识别的纠正。

或者,以智能音箱为例,用户与智能音箱进行人机交互。例如,用户讲了“qing dakai dian shi ju(请打开电视剧)”,但智能音箱识别并在其显示屏输出的结果为“请大开电视局”,此时出现误识别,需要进行误识别的纠正。

针对上述场景,目前的纠正方案是通过间接反馈至研发处,由研发人员进行上线纠正开发,该方案耗期较长,效率低。

因此,基于上述,本申请提供一种语言模型训练方法、应用方法、装置、设备及存储介质,应用于人工智能技术、智能交通(或自动驾驶)、语音识别技术、大数据和深度学习,由用户自主纠正误识别,使得误识别纠正更快更高效,而不是间接反馈到研发处,进行上线纠正开发。该方法是一种基于对话流的误识别纠正方案。

下面采用详细的实施例,来说明本申请如何提升误识别纠正效率。

实施例一

图1是根据本申请第一实施例的示意图。本申请实施例提供一种语言模型训练方法,该方法可以由语言模型训练装置执行,其中,语言模型训练装置可以具体为电子设备,或者,语言模型训练装置可以内置于电子设备中,例如语言模型训练装置为电子设备内的芯片,等等。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理(Personal Digital Assistant,简称PDA,又可以称为“掌上电脑”)、服务器、刀片式服务器、大型计算机、和其它适合的计算机,该实施例以电子设备为云端服务器为例进行说明。

如图1所示,该语言模型训练方法包括以下步骤:

S101、云端服务器接收来自客户端的误识别指令,误识别指令中携带客户端的标识信息及误识别指示信息。

其中,误识别指令是由客户端响应于检测到的用户输入的误识别指示信息发出的。

示例地,以客户端为车载语音设备为例进行说明。在实际应用中,用户与车载语音设备进行人机交互,例如,用户讲了“jiang ge xiao hua(讲个笑话)”,但车载语音设备识别并在其显示屏输出的结果为“蒋个笑话”。用户在看到该语音识别结果后,确定该语音识别结果是错误的,发出“识别错误”或“蒋字错了”等类似的误识别指示信息。对应地,车载语音设备检测到该误识别指示信息并对其做出响应,即发送误识别指令给云端服务器。相应地,云端服务器接收误识别指令。

通过在误识别指令中携带客户端的标识信息来区分指令的发送端;在误识别指令中携带误识别指示信息来指示接收端在接收到该误识别指令后要执行的操作,该实施例中即触发语言模型的重新训练。

需说明的是,上述示例以用户从车载语音设备的显示屏显示的内容获知当前的语音识别结果是错误的,但本申请不以此为限制,用户还可以通过其他方式获知当前的语音识别结果是错误的,例如通过与车载语音设备进行连接的手机等便携电子设备的显示屏看到,等等。

S102、云端服务器根据标识信息,确定误识别的目标语音信号及误识别结果,误识别结果是将目标语音信号输入语言模型得到的。

其中,云端服务器中存储有语言模型,用于对输入的语音信号进行分析处理,输出语音信号对应的语音识别结果。该语言模型是预先训练好的满足预设收敛条件的模型。

另外,对应与云端服务器进行通信连接的每一客户端,云端服务器中存储有该客户端在最近一段时间内发送的语音信号以及该语音信号对应的语音识别结果。

由于用户是在客户端的显示屏看到误识别之后又输入的误识别指示信息,误识别指示信息的发出时间是紧随误识别的对象(即目标语音信号)的发出时间,因此,目标语音信号和误识别结果是最新存入云端服务器的。因此,一种实现方式中,该步骤可以具体为:在缓存信息中确定标识信息对应的目标缓存信息;确定目标缓存信息中最新存入的语音信号及语音识别结果分别为语音识别错误的目标语音信号及误识别结果。

S103、云端服务器基于误识别指示信息、误识别结果和目标语音信号,训练语言模型得到更新后的语言模型。

其中,目标语音信号为语音识别的对象,误识别结果为该次语音识别输出的结果,误识别指示信息用于指示误识别结果中存在的错误,因此,根据这三个元素进一步训练语言模型,相当于为语言模型去除误识别的结果,得到准确度更高的更新后的语言模型。

语言模型用于实现音字转换过程(拼音转换为字符的过程)。例如,对于语言模型输入拼音nixianzaiganshenme,对应着很多语音识别结果,可能的转换结果如图2所示,各节点之间构成了复杂的链路,从开始节点(从左至右的第一个节点)到结束节点(从左至右的最后一个节点)的任意一条链路都可能是最终的转换结果,在这么多转换结果中选择最合适的链路的过程就需要解码算法。示例地,解码算法可以是维特比(viterbi)算法,它采用动态规划的原理能够很快地确定最合适的路径。

由此可见,在本申请实施例中,在接收来自客户端的误识别指令后,误识别指令中携带客户端的标识信息及误识别指示信息,误识别指令是由客户端响应于检测到的用户输入的误识别指示信息发出的,根据标识信息,确定误识别的目标语音信号及误识别结果,误识别结果是将目标语音信号输入语言模型得到的,并基于误识别指示信息、误识别结果和目标语音信号,训练语言模型得到更新后的语言模型。一方面,由于误识别指令是由客户端响应于检测到的用户输入的误识别指示信息发出的,也就是说语言模型的训练是由用户触发的,由用户自主纠正误识别,相比由研发人员进行研发纠正的实现方式,本申请可以提升误识别的纠正效率;另一方面,本申请提供的语言模型训练方案是对已训练好的语言模型的进一步完善,可以提高语言模型的准确度。

在上述实施例的基础上,为更好地理解如何图1所示的各个步骤,接下来,将通过实施例二对其进行详细的描述。

实施例二

图3是根据本申请第二实施例的示意图。参考图3,该语言模型训练方法可以包括以下步骤:

S301、云端服务器接收来自客户端的误识别指令,误识别指令中携带客户端的标识信息及误识别指示信息。

该步骤与实施例一中S101类似,此处不再赘述。

S302、云端服务器根据标识信息,确定误识别的目标语音信号及误识别结果,误识别结果是将目标语音信号输入语言模型得到的。

该步骤与实施例一中S102类似,此处不再赘述。

在上述基础上,该语言模型训练方法还可以包括:

S303、确定误识别结果是否为对目标语音信号对应的误识别结果。

若确定误识别结果为对目标语音信号对应的误识别结果,则执行S304;若确定误识别结果为对目标语音信号对应的正确的识别结果,则结束流程。

该步骤用于验证误识别指示信息的有效性,以防止用户对语言模型的恶意篡改。例如,对于“jiang ge xiao hua”,客户端显示的是“讲个笑话”,若此时用户仍表达类似“识别错误”的误识别指示信息,通过该步骤可以进行过滤掉该误识别指示信息,防止为语言模型的训练去除一个正确识别,导致语言模型的性能下降。

可选地,若确定误识别结果为对目标语音信号对应的正确的识别结果,在结束流程的同时,还可以向客户端发送识别结果是正确的相关内容,以提示用户当前识别结果为正确的,可以提升用户体验。

S304、根据误识别指示信息对误识别结果进行纠正,得到目标语音识别结果。

由于误识别指示信息用于指示误识别结果中存在的错误,因此,该实施例中首先基于误识别指示信息对误识别结果进行纠正,得到对应目标语音信号的真正语音识别结果,即目标语音识别结果。这里,根据误识别指示信息的具体内容不同,该步骤的具体实现方式也是多种多样的。

一种实现中,误识别指示信息包含误识别的字符及更正后的字符。此时,该步骤可以包括:将误识别结果中误识别的字符替换为更正后的字符,得到目标语音识别结果。例如,对应上述“jiang ge xiao hua(讲个笑话)”的示例,误识别指示信息为“jiang xiu gaiwei jiang hua de jiang(蒋修改为讲话的讲)”,其中包含有误识别的字符“jiang(蒋)”,以及更正后的字符“jiang hua de jiang(讲话的讲)”,修改后的目标语音识别结果为“讲个笑话”。

另一种实现中,误识别指示信息包含误识别的字符。此情况下,该步骤可以包括:基于误识别结果的上下文信息,确定误识别的字符对应的目标字符;将误识别结果中误识别的字符替换为目标字符,得到目标语音识别结果。例如,对应上述“jiang ge xiao hua(讲个笑话)”的示例,误识别指示信息为“jiang zi cuo le(蒋字错了)”,其中包含有误识别的字符“jiang(蒋)”,此时根据上下文信息可以确定目标字符为“讲”,修改后的目标语音识别结果为“讲个笑话”。

可选地,基于误识别结果的上下文信息,确定误识别的字符对应的目标字符,可以进一步包括:基于误识别结果的上下文信息,在预设字典中查找误识别的字符对应的同音字符和/或相近字符,得到误识别的字符对应的目标字符。

又一种实现中,误识别指示信息仅指示识别是错误的。此情况下,该步骤可以包括:基于误识别结果的上下文信息,确定误识别的字符对应的目标字符;将误识别结果中误识别的字符替换为目标字符,得到目标语音识别结果。该实现方式与上述实现方式的区别在于要遍历每个字符去判断是否存在识别错误。例如,对应上述“jiang ge xiao hua(讲个笑话)”的示例,误识别指示信息为“ni shi bie cuo le(你识别错了)”,此时,遍历每个字符,根据上下文信息确定识别错误的字符为“蒋”,并确定其对应的目标字符为“讲”,修改后的目标语音识别结果为“讲个笑话”。

S305、使用目标语音信号和目标语音识别结果,训练语言模型得到更新后的语言模型。

其中,S304和S305是对实施例一中S103的进一步细化。

进一步地,该方法还可以包括:

S306、向客户端发送目标语音识别结果。

通过将目标语音识别结果发送给客户端,可以使用户快速得知其关于误识别的纠正已得到处理,若用户重新发出之前误识别的目标语音信号,客户端显示的识别结果为目标语音识别结果(正确的识别结果),从而可进一步提升用户体验。

本申请实施例只需保证S306发生在S304之后即可,至于S305与S306这两个步骤的执行顺序,本申请实施例不予限制,二者可以先后被执行,也可以并行被执行。

本申请实施例中,用户在进行语音对话识别时,发现了识别错误的情况,此时告知客户端“你识别错了”等语音输入;接着,云端语音系统接收到了来自客户端的识别错误的指令,采用语言模型进行链路检查,如发现确实当前的识别结果是错误的,则会重新查找预设字典(即同音字和相近字语音库),替换识别结果中识别错误的字符,通过计算概率打分的方式生成识别正确的结果。

通过用户与客户端的对话过程,使得云端服务器采用语言模型自动快速进行新路径计算,去除误识别的结果,得出准确的识别结果,该方案有利于快速纠正误识别,提高识别率。

实施例三

上述实施例中得到了更新后的语言模型,因此,本申请实施例还提供一种语言模型应用方法,使用更新后的语言模型进行语音识别,可以提升识别准确度。

图4是根据本申请第三实施例的示意图。本申请实施例提供一种语言模型应用方法,该方法可以由语言模型应用装置执行,其中,语言模型应用装置可以具体为电子设备,或者,语言模型应用装置可以内置于电子设备中,例如语言模型应用装置为电子设备内的芯片,等等。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、PDA、服务器、刀片式服务器、大型计算机、和其它适合的计算机。

如图4所示,该语言模型应用方法包括:

S401、接收来自客户端的待识别语音信号。

S402、将待识别语音信号输入更新后的语言模型,得到待识别语音信号对应的语音识别结果。

S403、向客户端发送待识别语音信号对应的语音识别结果。

实施例四

图5是根据本申请第四实施例的示意图。该实施例提供一种语言模型训练装置。如图5所示,该语言模型训练装置500包括:接收模块501、确定模块502和训练模块503。其中:

接收模块501,用于接收来自客户端的误识别指令。其中,该误识别指令中携带客户端的标识信息及误识别指示信息。误识别指令是由客户端响应于检测到的用户输入的误识别指示信息发出的。

确定模块502,用于根据标识信息,确定误识别的目标语音信号及误识别结果。其中,误识别结果是将目标语音信号输入语言模型得到的。

训练模块503,用于基于误识别指示信息、误识别结果和目标语音信号,训练语言模型得到更新后的语言模型。

本实施例提供的语言模型训练装置,可用于执行上述的语言模型训练方法实施例,其实现方式和技术效果类似,本实施例此处不再赘述。

实施例五

图6是根据本申请第五实施例的示意图。参考图6,在图5所示结构的基础上,在语言模型训练装置600中,训练模块503可以包括:

纠正单元601,用于根据误识别指示信息对所述误识别结果进行纠正,得到目标语音识别结果;

训练单元602,用于使用目标语音信号和目标语音识别结果,训练语言模型得到更新后的语言模型。

一些实施例中,误识别指示信息包含误识别的字符及更正后的字符。该情况下,纠正单元601可具体用于:将误识别结果中误识别的字符替换为更正后的字符,得到目标语音识别结果。

或者,误识别指示信息包含误识别的字符。此时,纠正单元601可以进一步包括:

确定子单元6011,用于基于误识别结果的上下文信息,确定误识别的字符对应的目标字符;

替换子单元6012,用于将误识别结果中误识别的字符替换为目标字符,得到目标语音识别结果。

可选地,确定子单元6011具体用于:基于误识别结果的上下文信息,在预设字典中查找误识别的字符对应的同音字符和/或相近字符,得到误识别的字符对应的目标字符。

进一步地,语言模型训练装置600还可以包括:发送模块(未示出),用于向客户端发送目标语音识别结果。

一些实施例中,确定模块502可具体用于:在缓存信息中确定标识信息对应的目标缓存信息;确定目标缓存信息中最新存入的语音信号及语音识别结果分别为语音识别错误的目标语音信号及误识别结果。

可选地,确定模块502还可以用于:在根据标识信息,确定误识别的目标语音信号及误识别结果之后,确定误识别结果为对目标语音信号对应的误识别结果。

进一步地,确定模块502还可以用于:若确定误识别结果为对目标语音信号对应的正确的识别结果,则触发发送模块向客户端发送识别结果是正确的相关内容。

实施例六

图7是根据本申请第六实施例的示意图。该实施例提供一种语言模型应用装置。如图7所示,该语言模型应用装置700包括:接收模块701、处理模块702和发送模块703。其中:

接收模块701,用于接收来自客户端的待识别语音信号。

处理模块702,用于将待识别语音信号输入更新后的语言模型,得到待识别语音信号对应的语音识别结果。

发送模块703,用于向客户端发送待识别语音信号对应的语音识别结果。

本实施例提供的语言模型应用装置,可用于执行上述的语言模型应用方法实施例,其实现方式和技术效果类似,本实施例此处不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图8所示,是根据本申请实施例的语言模型训练和/或语言模型应用的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语言模型训练方法和/或语言模型应用方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语言模型训练方法和/或语言模型应用方法。

存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语言模型训练方法对应的程序指令/模块(例如,附图5所示的接收模块501、确定模块502和训练模块503)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语言模型训练方法和/或语言模型应用方法。

存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语言模型训练和/或语言模型应用的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至语言模型训练和/或语言模型应用的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语言模型训练和/或语言模型应用的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息,以及产生与语言模型训练和/或语言模型应用的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

图9是可以实现本申请实施例的语言模型训练的场景图。参考图9,该场景包括一个服务器,及多个客户端:手机、智能音箱和智能汽车。其中,服务器即语言模型训练装置。示例的,语言模型训练装置中可以包括接收模块、确定模块和训练模块,其中,确定模块和训练模块中存储有语言模型和预设字典。服务器在训练语言模型时,可以先通过接收模块从客户端接收误识别指令,该误识别指令中携带客户端的标识信息及误识别指示信息,并将标识信息传输给确定模块,将误识别指示信息传输给训练模块,由确定模块根据标识信息,确定误识别的目标语音信号及误识别结果;之后,确定模块将目标语音信号及误识别结果传输给训练模块,由训练模块基于误识别指示信息、误识别结果和目标语音信号,训练语言模型得到更新后的语言模型。

图9所示场景中,是以语言模型训练装置为服务器为例进行说明,但本申请不以此为限制;且本申请不限制场景中服务器、客户端的个数,具体以根据实际需求为准。例如,其中的服务器可以替换为服务器集群,等等。

根据本申请实施例的技术方案,在接收来自客户端的误识别指令后,误识别指令中携带客户端的标识信息及误识别指示信息,误识别指令是由客户端响应于检测到的用户输入的误识别指示信息发出的,根据标识信息,确定误识别的目标语音信号及误识别结果,误识别结果是将目标语音信号输入语言模型得到的,并基于误识别指示信息、误识别结果和目标语音信号,训练语言模型得到更新后的语言模型。一方面,由于误识别指令是由客户端响应于检测到的用户输入的误识别指示信息发出的,也就是说语言模型的训练是由用户触发的,由用户自主纠正误识别,相比由研发人员进行研发纠正的实现方式,本申请可以提升误识别的纠正效率;另一方面,本申请提供的语言模型训练方案是对已训练好的语言模型的进一步完善,可以提高语言模型的准确度。

根据本申请的实施例,本申请还提供了一种计算机程序产品,包括计算机指令,该计算机指令用于使计算机执行上述任一项所述的方法。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号