首页> 中国专利> 一种在线增量的语音获得与识别方法

一种在线增量的语音获得与识别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种在线增量的语音获得与识别方法，包括初始化阶段、针对语音数据的输入与竞争阶段、基准点更新阶段、作用范围的阈值更新阶段以及去噪阶段。可有效避免现有技术中的所述的模型的训练需要耗费大量的时间、无法实现在线增量、这种方式不符合人的认知习惯由此导致使用很不方便的缺陷。

著录项

公开/公告号CN104464721A

专利类型发明专利
公开/公告日2015-03-25

原文格式PDF
申请/专利权人南京大学;
展开▼

申请/专利号CN201410634670.9
发明设计人申富饶;许浩然;赵金熙;
展开▼

申请日2014-11-12
分类号G10L15/02;G10L15/06;G10L15/26;
代理机构南京钟山专利代理有限公司;
代理人戴朝荣
地址 210000 江苏省南京市汉口路22号
入库时间 2023-12-18 08:10:40

法律信息

法律状态公告日

法律状态信息

法律状态
2018-12-21

授权

授权
2015-04-22

实质审查的生效 IPC(主分类):G10L15/02 申请日:20141112

实质审查的生效
2015-03-25

公开

公开

说明书

技术领域

本发明属于语音获得与识别技术领域，具体涉及一种在线增量的语音获得与识别方法。

背景技术

传统的语音识别算法多从统计的角度出发，通过训练大量的数据，从而得出概率相关的模型。若有新的输入语音数据，得出概率相关的模型必须重新进行训练，所述的模型的训练需要耗费大量的时间，而且这种方式不符合人的认知习惯，由此导致使用很不方便。

发明内容

本发明的目的提供一种在线增量的语音获得与识别方法，包括初始化阶段、针对语音数据的输入与竞争阶段、基准点更新阶段、作用范围的阈值更新阶段以及去噪阶段。可有效避免现有技术中的所述的模型的训练需要耗费大量的时间、这种方式不符合人的认知习惯由此导致使用很不方便的缺陷。

为了克服现有技术中的不足，本发明提供了一种在线增量的语音获得与识别方法的解决方案，具体如下：

一种在线增量的语音获得与识别方法，步骤如下：

步骤1：首先，用于处理语音数据的终端接收到外部输入的语音数据；

步骤2：用于处理语音数据的终端接收到外部输入的语音数据后，就进入初始化阶段，所述的初始化阶段具体如下：

1)构建基准点集合A＝{L₁,L₂},其中第一基准点L₁,第二基准点L₂是从外部输入的语音数据中选取的两个随机数据；

2)构建边集合其初始值为空集,即第一基准点L₁,第二基准点L₂之间没有初始连接；

3)构建第一基准点L₁的激活数构建第二基准点L₂的激活数

4)构建第一基准点L₁的作用范围的阈值构建第二基准点L₂的作用范围的阈值所述的 dis tan ce(.,.)为相似性距离算法函数；

步骤3：进入针对语音数据的输入与竞争阶段，所述的针对语音数据的输入与竞争阶段的具体方法如下：

1)从外部对用于处理语音数据的终端输入一个新的语音数据样本 ξ∈R^D，其中R^D表示D维实数向量，D表示自然数；

2)找出A中与ξ最相似的两个基准点,所述的最相似的两个基准点分别为胜者基准点s₁和亚军基准点s₂,所述的胜者基准点s₁和亚军基准点s₂分别由如下所示公式所求得：

$s_{1} = \underset{x \in A}{\arg \min} dis \tan ce (ξ, x)$

$s_{2} = \underset{x \in A - {s_{1}}}{\arg \min} dis \tan ce (ξ, x);$

步骤4：接着进入基准点更新阶段，所述的基准点更新阶段具体如下：

1)如果或者成立,就为基准点集合A 生成一个新的基准点ξ,令A＝A∪{ξ}，其中表示针对胜者基准点s₁的作用范围的阈值，表示针对亚军基准点s₂的作用范围的阈值，然后跳转至步骤3中继续执行；

2)如果胜者基准点s₁和亚军基准点s₂间不存在连接,令C＝C∪{(s₁,s₂)} 即为胜者基准点s₁和亚军基准点s₂建立连接，然后令即刷新边(s₁,s₂)的连接年龄；

3)如果(s₁,L_i)∈C，则即与胜者基准点s₁相连的所有边连接年龄增加1，其中L_i表示基准点集合A中与胜者基准点s₁有边相连的所有节点；

4)即把胜者基准点s₁的激活数增加1；

5)将胜者基准点s₁和输入的新的语音数据样本ξ变形到相等的长度，即其中s₁'为调整后的新的胜者基准点，而ξ' 为调整后的新的语音数据样本，所述的为变形转化函数；

6)更新胜者基准点其中即执行胜者基准点s₁向输入的新的语音数据样本ξ移动操作；

7)检查所有连接(L_i,L_j)∈C当前的连接年龄如果就从边集合C中移除该连接,其中age_max是预先定义的连接年龄的阈值参数；

步骤5：然后进入作用范围的阈值更新阶段，所述的作用范围的阈值更新阶段包括将胜者基准点s₁的作用范围的阈值和亚军基准点 s₂的作用范围的阈值分别如下式所示来更新为与胜者基准点s₁和亚军基准点s₂的相邻基准点的最大距离，其中x分别表示基准点集合A中与胜者基准点s₁有边相连的所有节点和基准点集合A中与亚军基准点 s₂有边相连的所有节点：

$T_{s_{1}} = \underset{(x, s_{1}) \in C}{\arg \max} dis \tan ce (x, s_{1})$

$T_{s_{2}} = \underset{(x, s_{2}) \in C}{\arg \max} dis \tan ce (x, s_{2});$

步骤6：最后进入去噪阶段，所述的去噪阶段包括如果当前输入的语音数据的样本总数是λ的整数倍，λ即为一个学习周期，检查整个基准点集合A，如果存在只有一个相邻基准点的基准点,并且该基准点的激活数小于设定的激活数的阈值,就在基准点集合A中删去该基准点，然后跳转至步骤3中执行，等到训练用的语音数据样本全部输入完毕后,就能得到所需的语音数据的基准点集合A以及基准点之间的连接C。

所述的dis tan ce(.,.)表示的相似性距离度量算法函数是一种衡量两个长度不同的语音数据的相似度的方法，其函数参数为两个长度不同的语音数据，dis tan ce(.,.)表示的相似性距离度量算法函数通过把语音数据进行缩短和延伸，来计算两个语音数据之间的相似程度， dis tan ce(.,.)表示的相似性距离度量算法函数的具体步骤如下所示：

1)首先对dis tan ce(.,.)表示的相似性距离算法函数输入两个语音数据参数，所述的两个语音数据参数分别为第一语音数据参数x和第二语音数据参数y；

2)构造一个|x|*|y|的网格，其中|x|是第一语音数据参数x的长度，|y|是第二语音数据参数y的长度；

3)接着将网格的初始分辨率设置为最粗，即只有1*1个格子；

4)设定n*m表示网格当前的分辨率，从网格的左下角的坐标path (1,1)开始，到网格的右上角的坐标path(n,m)结尾，dis tan ce(.,.)表示的相似性距离度量算法函数按照网格的坐标递增的顺序通过路径规整化确定的相似性距离为相似性距离最短的规整化的路径就是dis tan ce(.,.)表示的相似性距离度量算法函数所得到的规整路径path，n、K、k和m均为自然数，其中K 表示规整化的路径经过的格子数；

5)将网格的分辨率加倍，即一个格子变成四个格子；

6)将所述的规整路径投影到分辨率加倍后的网格上；

7)在所述的规整路径投影到分辨率加倍后的网格上投影区域内找出新的规整路径，设定p*q表示网格当前的分辨率，从网格的左下角的坐标path(1,1)开始，到网格的右上角的坐标path(p,q)结尾，并且所经过的网格的坐标都必须在所述的规整路径投影到分辨率加倍后的网格上投影区域内，dis tan ce(.,.)表示的相似性度量距离算法函数按照网格的坐标递增的顺序通过路径规整化确定的相似性度量距离为 path(k,2)),相似性度量距离最短的规整化的路径就是dis tan ce(.,.)表示的相似性距离度量算法函数所得到的规整路径path，p、S、k和q均为自然数，其中S表示规整化的路径经过的格子数；

8)若网格的分辨率达到原始值，即网格变成|x|*|y|，|x|是第一语音数据参数x的长度，|y|是第二语音数据参数y的长度，则终止 dis tan ce(.,.)表示的相似性距离度量算法的过程，否则跳转至4)中执行。

所述的表示的变形转化函数，其具体执行步骤如下：

1)首先对第一变量i初始化赋值为1，对第二变量len初始化赋值为最终的规整路径的长度，把调整后的新的胜者基准点s₁'初始化为空，把调整后的新的语音数据样本ξ'初始化为空；

2)若最终的规整路径中的胜者基准点s₁一维坐标对应于输入的语音数据样本ξ的多维坐标，转到3)中执行，若最终的规整路径中的胜者基准点s₁多维坐标对应于输入的语音数据样本ξ的一维坐标，转到4)中执行，若最终的规整路径中的胜者基准点s₁一维坐标对应于输入的语音数据样本ξ的一维坐标，转到5)中执行；

3)对调整后的新的胜者基准点s₁'和调整后的新的语音数据样本ξ' 分别增加维数据，其中s₁'增加的数据值为所述的胜者基准点 s₁的第i维数据,ξ'是将ξ对应的cnt维数据合并为维,然后转到6)中执行，所述的cnt为最终的规整路径中的胜者基准点s₁一维坐标对应的输入的语音数据样本ξ的多维坐标的维数；

4)对调整后的新的胜者基准点s₁'和调整后的新的语音数据样本 ξ'分别增加维数据，其中ξ'增加的数据值为所述的语音数据样本ξ的第i维数据,s₁'是将胜者基准点s₁对应的cnt维数据合并为维,然后转到6)中执行，所述的cnt为最终的规整路径中的胜者基准点s₁多维坐标对应于输入的语音数据样本ξ的一维坐标中的最终的规整路径中的胜者基准点s₁多维坐标的维数；

5)对调整后的新的胜者基准点s₁'和调整后的新的语音数据样本 ξ'分别增加1维数据，其中s₁'增加的数据值为所述的胜者基准点s₁的第i维数据,ξ′增加的数据值为所述的语音数据样本ξ的第i维数据, 设置cnt为1，转到6)中执行；

6)第一变量i赋值为i+cnt，如果第一变量i的值小于第二变量 len的值，返回2)中执行，否则返回所述的步骤4中执行。

本发明能够在线增量的进行语音识别，并且能够达到实时要求，使得语音识别可以以在线方式投入实际应用，更加符合人类智能。

具体实施方式

本发明的目的是研制自动化的高效的一种在线增量的语音获得与识别方法，通过实施例来进行进一步的说明：

在线增量的语音获得与识别方法，步骤如下：

步骤1：首先，用于处理语音数据的终端接收到外部输入的语音数据；

步骤2：用于处理语音数据的终端接收到外部输入的语音数据后，就进入初始化阶段，所述的初始化阶段具体如下：

1)构建基准点集合A＝{L₁,L₂},其中第一基准点L₁,第二基准点L₂是从外部输入的语音数据中选取的两个随机数据；

2)构建边集合其初始值为空集,即第一基准点L₁,第二基准点L₂之间没有初始连接；

3)构建第一基准点L₁的激活数构建第二基准点L₂的激活数 $M_{L_{2}} = 0;$

4)构建第一基准点L₁的作用范围的阈值构建第二基准点L₂的作用范围的阈值所述的 dis tan ce(.,.)为相似性距离算法函数；

步骤3：进入针对语音数据的输入与竞争阶段，所述的针对语音数据的输入与竞争阶段的具体方法如下：

1)从外部对用于处理语音数据的终端输入一个新的语音数据样本 ξ∈R^D，其中R^D表示D维实数向量，D表示自然数；

$s_{1} = \underset{x \in A}{\arg \min} dis \tan ce (ξ, x)$

$s_{2} = \underset{x \in A - {s_{1}}}{\arg \min} dis \tan ce (ξ, x);$

步骤4：接着进入基准点更新阶段，所述的基准点更新阶段具体如下：

2)如果胜者基准点s₁和亚军基准点s₂间不存在连接,令 C＝C∪{(s₁,s₂)}即为胜者基准点s₁和亚军基准点s₂建立连接，然后令即刷新边(s₁，s₂)的连接年龄；

3)如果(s₁,L_i)∈C，则即与胜者基准点s₁相连的所有边连接年龄增加1，其中L_i表示基准点集合A中与胜者基准点s₁有边相连的所有节点；

4)即把胜者基准点s₁的激活数增加1；

6)更新胜者基准点其中即执行胜者基准点s₁向输入的新的语音数据样本ξ移动操作；

7)检查所有连接(L_i,L_j)∈C当前的连接年龄如果就从边集合C中移除该连接,其中age_max是预先定义的连接年龄的阈值参数；

$T_{s_{1}} = \underset{(x, s_{1}) \in C}{\arg \max} dis \tan ce (x, s_{1})$

$T_{s_{2}} = \underset{(x, s_{2}) \in C}{\arg \max} dis \tan ce (x, s_{2});$

1)首先对dis tan ce(.,.)表示的相似性距离算法函数输入两个语音数据参数，所述的两个语音数据参数分别为第一语音数据参数x和第二语音数据参数y；

2)构造一个|x|*|y|的网格，其中|x|是第一语音数据参数x的长度，|y|是第二语音数据参数y的长度；

3)接着将网格的初始分辨率设置为最粗，即只有1*1个格子；

4)设定n*m表示网格当前的分辨率，从网格的左下角的坐标path (1,1)开始，到网格的右上角的坐标path(n,m)结尾，distance(.,.)表示的相似性距离度量算法函数按照网格的坐标递增的顺序通过路径规整化确定的相似性距离为相似性距离最短的规整化的路径就是dis tan ce(.,.)表示的相似性距离度量算法函数所得到的规整路径path，n、K、k和m均为自然数，其中K 表示规整化的路径经过的格子数；

5)将网格的分辨率加倍，即一个格子变成四个格子；

6)将所述的规整路径投影到分辨率加倍后的网格上；

7)在所述的规整路径投影到分辨率加倍后的网格上投影区域内找出新的规整路径，设定p*q表示网格当前的分辨率，从网格的左下角的坐标path(1,1)开始，到网格的右上角的坐标path(p,q)结尾，并且所经过的网格的坐标都必须在所述的规整路径投影到分辨率加倍后的网格上投影区域内，dis tan ce(.,.)表示的相似性度量距离算法函数按照网格的坐标递增的顺序通过路径规整化确定的相似性度量距离为相似性度量距离最短的规整化的路径就是dis tan ce(.,.)表示的相似性距离度量算法函数所得到的规整路径path，p、S、k和q均为自然数，其中S表示规整化的路径经过的格子数；

所述的表示的变形转化函数，其具体执行步骤如下：

6)第一变量i赋值为i+cnt，如果第一变量i的值小于第二变量 len的值，返回2)中执行，否则返回所述的步骤4中执行。

针对本发明的具体实施例中的第一个,语音数据采用实验室采集的语音数据集，其中包括10种语音数据，分别为一、二、三、四、五、六、七、八、九、十。其中每种语音数据读十遍，共100条语音数据，其中50条用于训练，50条用于测试，应用本发明的方法该实施例的实验结果如表1：

表1

训练样本数测试样本数准确率 50 50 100％

针对本发明的具体实施例中的另一个,语音数据采用tidigits数据集，tidigits数据集是国际论文中常用的用于语音识别的数据集，包括 11种语音数据，分别为 one,two,three,four,five,six,seven,eight,nine,oh,zero。参与语音数据采集人员为：男，93人，女，114人。其中每人每个词读两遍，共4554 条语音数据，其中2554条用于训练，2000条用于测试，应用本发明的方法该实施例的实验结果如表2：

表2

训练样本数测试样本数准确率 2554 2000 96％

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种在线增量的语音获得与识别方法 [P] . 中国专利： CN104464721A . 2015-03-25
2. 一种在线增量的语音获得和识别方法 [P] . 中国专利： CN104464721B . 2018.12.21
3. VOICE RECOGNITION CLIENT SYSTEM, A VOICE RECOGNITION SERVER SYSTEM, AND A VOICE RECOGNITION METHOD CAPABLE OF PROCESSING ONLINE VOICE RECOGNITION WHICH PERFORMS BETTER VOICE RECOGNITION [P] . 韩国专利： KR20120067680A . 2012-06-26

机译：能够进行更好的语音识别的在线语音识别的语音识别客户端系统，语音识别服务器系统和语音识别方法
4. Speech recognition client system for processing on-line speech recognition, speech recognition server system and speech recognition method [P] . 日本专利： JP6139598B2 . 2017-05-31

机译：用于处理在线语音识别的语音识别客户端系统，语音识别服务器系统和语音识别方法
5. Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method [P] . 美国专利： US9318111B2 . 2016-04-19

机译：用于处理在线语音识别的语音识别客户端系统，语音识别服务器系统和语音识别方法