首页> 中国专利> 实现多语种混合使用的语音识别方法

实现多语种混合使用的语音识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种实现多语种混合使用的语音识别方法，涉及语音识别技术领域。包括如下步骤：在云端提供多种语音识别服务器和一个识别文本后处理服务器；用户通过终端把实时语音通过网络同时传送给多个语音识别服务器；多个语音识别服务器同时进行语音识别，然后把各自的识别结果文本发送给识别文本后处理服务器，进行处理；识别文本后处理服务器根据整体语义的解析，提供第一种语言结果中的有效部分M，以及第二种语言结果中的有效部分N，然后将M和N拼接成最终的识别结果，通过网络发送给用户终端；用户终端获取到多种语音混用的正确识别结果。所述方法能够实现对多种混合使用的语音信息进行有效识别，扩大了应用范围。

著录项

公开/公告号CN105096953A

专利类型发明专利
公开/公告日2015-11-25

原文格式PDF
申请/专利权人东莞市凡豆信息科技有限公司;
展开▼

申请/专利号CN201510489060.9
发明设计人于拾全;卫亚东;田学红;
展开▼

申请日2015-08-11
分类号G10L15/34(20130101);
代理机构11290 北京信慧永光知识产权代理有限责任公司;
代理人周详
地址 523808 广东省东莞市松山湖高新技术产业开发区创新科技园4号楼2楼203室
入库时间 2023-12-18 12:26:02

法律信息

法律状态公告日

法律状态信息

法律状态
2023-08-18

未缴年费专利权终止 IPC(主分类):G10L15/34 专利号:ZL2015104890609 申请日:20150811 授权公告日:20190312

专利权的终止
2019-03-12

授权

授权
2015-12-23

实质审查的生效 IPC(主分类):G10L15/34 申请日:20150811

实质审查的生效
2015-11-25

公开

公开

说明书

技术领域

本发明涉及语音识别方法技术领域，尤其涉及一种实现多语种混合使用的语音识别方法。

背景技术

现有的语音识别系统都是针对单个语种进行优化设计的，在同一时间内只能实现单种语言(比如，中文普通话或英语)的语音识别，无法满足混合语音用户的使用需求，比如喜欢中英文混读的人群。

造成这种现象的原因有很多，例如基本识别单元的选择差异。

在语音识别过程中，选择识别单元是语音识别第一步基础。语音识别单元有单词(句)、音节和音素三种，一般都会根据具体的需求选择不同的识别单元。一般的选择策略如下：

1)单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

2)音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408 个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元是比较常见的。

3)音素单元以前多见于英语和其他字母型语言的语音识别的研究中。

基于以上原因，基于单个语音识别引擎很难做到对不同语种的高精度识别，因此无法实现混合语音的识别。

发明内容

本发明所要解决的技术问题是提供一种实现多语种混合使用的语音识别方法，所述方法能够实现对多种混合使用的语音信息进行有效识别，扩大了应用范围。

为解决上述技术问题，本发明所采取的技术方案是：一种实现多语种混合使用的语音识别方法，其特征在于所述方法包括如下步骤：

1)在云端提供多种语音识别服务器和一个识别文本后处理服务器；

2)用户通过终端把实时语音通过网络同时传送给多个语音识别服务器；

3)多个语音识别服务器同时进行语音识别，然后把各自的识别结果文本发送给识别文本后处理服务器，进行处理；

4)识别文本后处理服务器基于N元文法规则建立N-gram模型库，针对整体语义进行解析，去掉不符合N元文法规则的部分，保留第一种语言结果中的有效部分M，以及第二种语言结果中的有效部分N，以此类推，然后将M和N 拼接成最终的识别结果，通过网络发送给用户终端；

5)用户终端获取到多种语音混用的正确识别结果。

进一步的技术方案在于：步骤1)中多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B。

进一步的技术方案在于：步骤2)具体为，用户通过终端把实时语音通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B。

进一步的技术方案在于：步骤3)具体为，中文语音识别服务器A和英文语音识别服务器B同时进行语音识别，然后把各自的识别结果文本发送给识别文本后处理服务器，进行处理。

进一步的技术方案在于：步骤4具体为，识别文本后处理服务器根据中文的语义解析，提供中文结果中的有效部分M，以及英文结果中的有效部分N，然后将M和N拼接成最终的识别结果，通过网络发送给用户终端。

进一步的技术方案在于：步骤5)具体为，用户终端获取到中英文混用的正确识别结果。

进一步的技术方案在于：识别文本后处理服务器具体的处理过程如下：

1)选择中文服务器的文本结果res-1的第1个字为起点，进行N-gram的判断，如果后续的第N个字和第一个字的组合概率低于常规门限p，则认为第1 个字无效需要丢弃，否则保留第一个字，同时标记段落标志为0，然后继续向后执行，如果中间出现丢弃部分后，再次遇到有效组合部分，则标记段落标志为1，最终得到保留部分M，M可能包括多个段落Mi，其中i＝0，1,2,3...，只有第一个字为起点的段落有效时才标志为0；

2)选择英文服务器的文本结果res-1的第一个单词为起点，进行N-gram 的判断，如果后续的第N个单词和第一个单词的组合概率低于常规门限p，则认为第1个单词无效需要丢弃，否则保留第一个单词，同时标记段落标志为0，然后继续向后执行，如果中间出现丢弃部分后，再次遇到有效组合部分，则标记段落标志为2，然后继续向后执行，最终得到保留部分N，N可能包括多个段落Ni，其中i＝0，1,2,3...，只有第一个单词为起点的段落有效时才标志为 0；

3)把步骤1)和步骤2)得到的Mi和Ni交替拼接，形成最终的结果： M0N1M1N2...或者N0M1N1M2N2.....；

4)识别文本后处理服务器把最终结果返回给用户终端。

8、根据权利要求7所述的实现多语种混合使用的语音识别方法，其特征在于常规门限p＝0.0003。

采用上述技术方案所产生的有益效果在于：所述方法能够实现对多种混合使用的语音信息进行有效识别，扩大了应用范围。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明中语音识别引擎的原理框图；

图2是本发明的整体流程框架图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

总体的，本发明公开了一种实现多语种混合使用的语音识别方法，所述方法包括如下步骤：

1)在云端提供多种语音识别服务器和一个识别文本后处理服务器；

2)用户通过终端把实时语音通过网络同时传送给多个语音识别服务器，每个语音识别服务器配置针对单个语种优化过的高精度语音识别引擎，基本框架如下图1所示：

3)多个语音识别服务器同时进行语音识别，然后把各自的识别结果文本发送给识别文本后处理服务器，进行处理；

N-gram一种依赖于上下文环境的词的概率分布的统计计算语言模型。

以N＝2为例(称为Bigram语言模型)。当我们看到一个句子片段“他正在认真”时，下一个词可以是“学习、工作、思考”等等，而不能是“美丽、我、中国”等等。即，自然语言中，存在着后一个词的出现条件地依赖于前一个词的出现的现象。Bigram就是把一个词的上下文定义为该词的前一个词，尽管这个定义仅仅包含了上下文的极少一部分，却对下一个词的出现具有较强的约束力。语料库学者发现，许多词的前面词的出现对于该词的出现具有很强的预测能力，英语这类有严格语序的语言更是如此。汉语的语序较英语灵活，但此约束关系依然存在。

假定，在一个语句中第i个词出现的概率，条件依赖于它前面的N-1个词，即将一个词的上下文定义为该词前面出现的N-1个词，这样的语言模型叫做 N-gram模型(N元文法统计模型)。公式如下：

$P (w_{i} = w | c) = p (w_{i} = w | w_{i - N + 1}^{i - 1})$

N-gram模型中，需要计算系统词表中词的每一个N-1元组的概率，共有 |V|^(N-1)(这里是指数)个元组，有|V|^(N-1)个不同的概率分布。对于每一个分布，又必须估算N个参数，共需估算出|V|^N个参数。由于参数空间随着N 的增大呈指数上升，因此，N一般取2或3。考虑目前的混合语言使用，一般都是常用语句的组合使用，因此V的数量不会太大，一般在3000以内的基本，以目前的服务器计算能力，是足以支撑的。

识别文本后处理服务器具体的处理过程如下：

1)选择中文服务器的文本结果res-1的第1个字为起点，进行N-gram的判断，如果后续的第N个字和第一个字的组合概率低于常规门限p，例如(p＝ 0.0003)，则认为第1个字无效需要丢弃，否则保留第一个字，同时标记段落标志为0，然后继续向后执行，如果中间出现丢弃部分后，再次遇到有效组合部分，则标记段落标志为1，最终得到保留部分M，M可能包括多个段落Mi，其中i＝0，1,2,3...，只有第一个字为起点的段落有效时才标志为0；

2)选择英文服务器的文本结果res-1的第一个单词为起点，进行N-gram 的判断，如果后续的第N个单词和第一个单词的组合概率低于常规门限p，例如(p＝0.0003)，则认为第1个单词无效需要丢弃，否则保留第一个单词，同时标记段落标志为0，然后继续向后执行，如果中间出现丢弃部分后，再次遇到有效组合部分，则标记段落标志为2，然后继续向后执行，最终得到保留部分N，N可能包括多个段落Ni，其中i＝0，1,2,3...，只有第一个单词为起点的段落有效时才标志为0；

3)把步骤1)和步骤2)得到的Mi和Ni交替拼接，形成最终的结果： M0N1M1N2...或者N0M1N1M2N2.....；

4)识别文本后处理服务器把最终结果返回给用户终端。

5)用户终端获取到多种语音混用的正确识别结果，整个过程如图2所示。

具体的：

实施例一

一种实现多语种混合使用的语音识别方法，所述方法包括如下步骤：

1)在云端提供多种语音识别服务器和一个识别文本后处理服务器，多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B；

2)用户通过终端把实时语音(例如包含：目标正前方，letsgo！)通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B；

3)中文语音识别服务器A和英文语音识别服务器B同时进行语音识别，然后把识别结果文本“目标正前方，来时够。”和movefunletsgo”发送给识别文本后处理服务器，进行处理；

4)识别文本后处理服务器根据中文的语义解析，提供中文结果中的有效部分N0＝“目标正前方”，以及英文结果中的有效部分M1＝“letsgo”，这里由于英文中的第1个单词和后续的单词没有相关性，因此M下标从1开始然后拼接成最终的识别结果N0M1＝“目标正前方，letsgo”，通过网络发送给用户终端；

5)用户终端获取到中英文混用的正确识别结果。

实施例二

一种实现多语种混合使用的语音识别方法，所述方法包括如下步骤：

1)在云端提供多种语音识别服务器和一个识别文本后处理服务器，多种语音识别服务器分别为中文语音识别服务器A和英文语音识别服务器B；

2)用户通过终端把实时语音(1234onetwothreefour1234onetwothree four)通过网络同时传送给中文语音识别服务器A和英文语音识别服务器B；

3)中文语音识别服务器A和英文语音识别服务器B同时进行语音识别，然后把识别结果文本“1234玩兔思锐发哦1234玩兔思锐发哦。”和“yearsigns onetwothreefouryearsignsonetwothreefour”发送给识别文本后处理服务器，进行处理；

4)识别文本后处理服务器根据中文的语义解析，提供中文结果中的有效部分N0＝“1234”和N1＝“1234”，以及英文结果中的有效部分M1＝“onetwothree four”M2＝“onetwothreefour”，这里由于英文中的第1个单词和后续的单词没有相关性，因此M下标从1开始，然后拼接成最终的识别结果N0M1N1M2 “1234onetwothreefour1234onetwothreefour”，通过网络发送给用户终端；

5)用户终端获取到中英文混用的正确识别结果。

所述方法能够实现对多种混合使用的语音信息进行有效识别，扩大了应用范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 实现多语种混合使用的语音识别方法 [P] . 中国专利： CN105096953B . 2019.03.12
2. 实现多语种混合使用的语音识别方法 [P] . 中国专利： CN105096953A . 2015-11-25
3. Image recognition method using a similarity detection method and the detection value thereof of the image, as well as speech recognition method using the similarity detection method and the detection value thereof voice, as well as a similarity detection method and the detection value thereof of the vibration wave machine abnormality determination method using, as well as video recognition method using the similarity detection method and the detection value thereof of a moving image, as well as three-dimensional recognition method using similarity detection method and the detection value thereof stereoscopic [P] . 日本专利： JP3422787B1 . 2003-06-30

机译：使用图像的相似度检测方法及其检测值的图像识别方法，以及使用相似度检测方法及其语音检测值的语音识别方法，以及振动的相似度检测方法及其检测值使用运动机器的波动机器异常确定方法以及使用相似度检测方法及其视频检测值的视频识别方法，以及使用相似度检测方法及其三维检测值的三维识别方法
4. Similarity detection method of voice and voice recognition method using the detection value thereof, similarity detection method of vibration wave and abnormality determination method of machine using the detection value, similarity detection method of image and detection thereof Image recognition method using values, stereoscopic similarity detection method and stereoscopic recognition method using the detected values, and moving image similarity detection method and moving image recognition method using the detected values [P] . 日本专利： JP3342864B2 . 2002-11-11

机译：语音的相似度检测方法和使用其检测值的语音识别方法，振动波的相似度检测方法和使用该检测值的机器异常确定方法，图像的相似度检测方法及其检测使用值的图像识别方法，立体相似度检测方法使用检测到的值的立体识别方法，使用检测到的值的运动图像相似性检测方法和运动图像识别方法
5. Speech recognition method for mobile communications device , e.g. for voice-control of mobile telephone, using list of previously employed actions for actualizing speech recognition vocabulary [P] . 德国专利： DE10304461B3 . 2004-03-04

机译：用于移动通信设备的语音识别方法，例如移动电话的语音控制，使用先前采用的动作列表来实现语音识别词汇