首页> 中国专利> 一种在线增量的语音获得与识别方法

一种在线增量的语音获得与识别方法

摘要

一种在线增量的语音获得与识别方法,包括初始化阶段、针对语音数据的输入与竞争阶段、基准点更新阶段、作用范围的阈值更新阶段以及去噪阶段。可有效避免现有技术中的所述的模型的训练需要耗费大量的时间、无法实现在线增量、这种方式不符合人的认知习惯由此导致使用很不方便的缺陷。

著录项

  • 公开/公告号CN104464721A

    专利类型发明专利

  • 公开/公告日2015-03-25

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN201410634670.9

  • 发明设计人 申富饶;许浩然;赵金熙;

    申请日2014-11-12

  • 分类号G10L15/02;G10L15/06;G10L15/26;

  • 代理机构南京钟山专利代理有限公司;

  • 代理人戴朝荣

  • 地址 210000 江苏省南京市汉口路22号

  • 入库时间 2023-12-18 08:10:40

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-21

    授权

    授权

  • 2015-04-22

    实质审查的生效 IPC(主分类):G10L15/02 申请日:20141112

    实质审查的生效

  • 2015-03-25

    公开

    公开

说明书

技术领域

本发明属于语音获得与识别技术领域,具体涉及一种在线增量的 语音获得与识别方法。

背景技术

传统的语音识别算法多从统计的角度出发,通过训练大量的数据, 从而得出概率相关的模型。若有新的输入语音数据,得出概率相关的 模型必须重新进行训练,所述的模型的训练需要耗费大量的时间,而 且这种方式不符合人的认知习惯,由此导致使用很不方便。

发明内容

本发明的目的提供一种在线增量的语音获得与识别方法,包括初 始化阶段、针对语音数据的输入与竞争阶段、基准点更新阶段、作用 范围的阈值更新阶段以及去噪阶段。可有效避免现有技术中的所述的 模型的训练需要耗费大量的时间、这种方式不符合人的认知习惯由此 导致使用很不方便的缺陷。

为了克服现有技术中的不足,本发明提供了一种在线增量的语音 获得与识别方法的解决方案,具体如下:

一种在线增量的语音获得与识别方法,步骤如下:

步骤1:首先,用于处理语音数据的终端接收到外部输入的语音 数据;

步骤2:用于处理语音数据的终端接收到外部输入的语音数据后, 就进入初始化阶段,所述的初始化阶段具体如下:

1)构建基准点集合A={L1,L2},其中第一基准点L1,第二基准点L2是从外部输入的语音数据中选取的两个随机数据;

2)构建边集合其初始值为空集,即第一基准点L1,第二 基准点L2之间没有初始连接;

3)构建第一基准点L1的激活数构建第二基准点L2的激 活数

4)构建第一基准点L1的作用范围的阈值构建第二基准点L2的作用范围的阈值所述的 dis tan ce(.,.)为相似性距离算法函数;

步骤3:进入针对语音数据的输入与竞争阶段,所述的针对语音 数据的输入与竞争阶段的具体方法如下:

1)从外部对用于处理语音数据的终端输入一个新的语音数据样本 ξ∈RD,其中RD表示D维实数向量,D表示自然数;

2)找出A中与ξ最相似的两个基准点,所述的最相似的两个基准 点分别为胜者基准点s1和亚军基准点s2,所述的胜者基准点s1和亚军基 准点s2分别由如下所示公式所求得:

s1=argminxAdistance(ξ,x)

s2=argminxA-{s1}distance(ξ,x);

步骤4:接着进入基准点更新阶段,所述的基准点更新阶段具体 如下:

1)如果或者成立,就为基准点集合A 生成一个新的基准点ξ,令A=A∪{ξ},其中表示针对胜者基准点s1的作用范围的阈值,表示针对亚军基准点s2的作用范围的阈值,然 后跳转至步骤3中继续执行;

2)如果胜者基准点s1和亚军基准点s2间不存在连接,令C=C∪{(s1,s2)} 即为胜者基准点s1和亚军基准点s2建立连接,然后令即刷新 边(s1,s2)的连接年龄;

3)如果(s1,Li)∈C,则即与胜者基准点s1相连的 所有边连接年龄增加1,其中Li表示基准点集合A中与胜者基准点s1有边相连的所有节点;

4)即把胜者基准点s1的激活数增加1;

5)将胜者基准点s1和输入的新的语音数据样本ξ变形到相等的长 度,即其中s1'为调整后的新的胜者基准点,而ξ' 为调整后的新的语音数据样本,所述的为变形转化函 数;

6)更新胜者基准点其中即执行胜 者基准点s1向输入的新的语音数据样本ξ移动操作;

7)检查所有连接(Li,Lj)∈C当前的连接年龄如果 就从边集合C中移除该连接,其中agemax是预先定义的 连接年龄的阈值参数;

步骤5:然后进入作用范围的阈值更新阶段,所述的作用范围的 阈值更新阶段包括将胜者基准点s1的作用范围的阈值和亚军基准点 s2的作用范围的阈值分别如下式所示来更新为与胜者基准点s1和亚 军基准点s2的相邻基准点的最大距离,其中x分别表示基准点集合A中 与胜者基准点s1有边相连的所有节点和基准点集合A中与亚军基准点 s2有边相连的所有节点:

Ts1=argmax(x,s1)Cdistance(x,s1)

Ts2=argmax(x,s2)Cdistance(x,s2);

步骤6:最后进入去噪阶段,所述的去噪阶段包括如果当前输入 的语音数据的样本总数是λ的整数倍,λ即为一个学习周期,检查整个 基准点集合A,如果存在只有一个相邻基准点的基准点,并且该基准 点的激活数小于设定的激活数的阈值,就在基准点集合A中删去该基 准点,然后跳转至步骤3中执行,等到训练用的语音数据样本全部输 入完毕后,就能得到所需的语音数据的基准点集合A以及基准点之间 的连接C。

所述的dis tan ce(.,.)表示的相似性距离度量算法函数是一种衡 量两个长度不同的语音数据的相似度的方法,其函数参数为两个长度 不同的语音数据,dis tan ce(.,.)表示的相似性距离度量算法函数通过 把语音数据进行缩短和延伸,来计算两个语音数据之间的相似程度, dis tan ce(.,.)表示的相似性距离度量算法函数的具体步骤如下所示:

1)首先对dis tan ce(.,.)表示的相似性距离算法函数输入两个语音 数据参数,所述的两个语音数据参数分别为第一语音数据参数x和第 二语音数据参数y;

2)构造一个|x|*|y|的网格,其中|x|是第一语音数据参数x的长 度,|y|是第二语音数据参数y的长度;

3)接着将网格的初始分辨率设置为最粗,即只有1*1个格子;

4)设定n*m表示网格当前的分辨率,从网格的左下角的坐标path (1,1)开始,到网格的右上角的坐标path(n,m)结尾,dis tan ce(.,.)表 示的相似性距离度量算法函数按照网格的坐标递增的顺序通过路径 规整化确定的相似性距离为相似性距 离最短的规整化的路径就是dis tan ce(.,.)表示的相似性距离度量算 法函数所得到的规整路径path,n、K、k和m均为自然数,其中K 表示规整化的路径经过的格子数;

5)将网格的分辨率加倍,即一个格子变成四个格子;

6)将所述的规整路径投影到分辨率加倍后的网格上;

7)在所述的规整路径投影到分辨率加倍后的网格上投影区域内找 出新的规整路径,设定p*q表示网格当前的分辨率,从网格的左下角 的坐标path(1,1)开始,到网格的右上角的坐标path(p,q)结尾,并且所 经过的网格的坐标都必须在所述的规整路径投影到分辨率加倍后的 网格上投影区域内,dis tan ce(.,.)表示的相似性度量距离算法函数按 照网格的坐标递增的顺序通过路径规整化确定的相似性度量距离为 path(k,2)),相似性度量距离最短的规整化的路 径就是dis tan ce(.,.)表示的相似性距离度量算法函数所得到的规整 路径path,p、S、k和q均为自然数,其中S表示规整化的路径经过 的格子数;

8)若网格的分辨率达到原始值,即网格变成|x|*|y|,|x|是第一 语音数据参数x的长度,|y|是第二语音数据参数y的长度,则终止 dis tan ce(.,.)表示的相似性距离度量算法的过程,否则跳转至4)中 执行。

所述的表示的变形转化函数,其具体执行步骤如 下:

1)首先对第一变量i初始化赋值为1,对第二变量len初始化赋 值为最终的规整路径的长度,把调整后的新的胜者基准点s1'初始化为 空,把调整后的新的语音数据样本ξ'初始化为空;

2)若最终的规整路径中的胜者基准点s1一维坐标对应于输入的语 音数据样本ξ的多维坐标,转到3)中执行,若最终的规整路径中的 胜者基准点s1多维坐标对应于输入的语音数据样本ξ的一维坐标,转 到4)中执行,若最终的规整路径中的胜者基准点s1一维坐标对应于 输入的语音数据样本ξ的一维坐标,转到5)中执行;

3)对调整后的新的胜者基准点s1'和调整后的新的语音数据样本ξ' 分别增加维数据,其中s1'增加的数据值为所述的胜者基准点 s1的第i维数据,ξ'是将ξ对应的cnt维数据合并为维,然后转 到6)中执行,所述的cnt为最终的规整路径中的胜者基准点s1一维坐 标对应的输入的语音数据样本ξ的多维坐标的维数;

4)对调整后的新的胜者基准点s1'和调整后的新的语音数据样本 ξ'分别增加维数据,其中ξ'增加的数据值为所述的语音数据 样本ξ的第i维数据,s1'是将胜者基准点s1对应的cnt维数据合并为 维,然后转到6)中执行,所述的cnt为最终的规整路径中 的胜者基准点s1多维坐标对应于输入的语音数据样本ξ的一维坐标中 的最终的规整路径中的胜者基准点s1多维坐标的维数;

5)对调整后的新的胜者基准点s1'和调整后的新的语音数据样本 ξ'分别增加1维数据,其中s1'增加的数据值为所述的胜者基准点s1的 第i维数据,ξ′增加的数据值为所述的语音数据样本ξ的第i维数据, 设置cnt为1,转到6)中执行;

6)第一变量i赋值为i+cnt,如果第一变量i的值小于第二变量 len的值,返回2)中执行,否则返回所述的步骤4中执行。

本发明能够在线增量的进行语音识别,并且能够达到实时要求, 使得语音识别可以以在线方式投入实际应用,更加符合人类智能。

具体实施方式

本发明的目的是研制自动化的高效的一种在线增量的语音获得 与识别方法,通过实施例来进行进一步的说明:

在线增量的语音获得与识别方法,步骤如下:

步骤1:首先,用于处理语音数据的终端接收到外部输入的语音 数据;

步骤2:用于处理语音数据的终端接收到外部输入的语音数据后, 就进入初始化阶段,所述的初始化阶段具体如下:

1)构建基准点集合A={L1,L2},其中第一基准点L1,第二基准点L2是从外部输入的语音数据中选取的两个随机数据;

2)构建边集合其初始值为空集,即第一基准点L1,第二 基准点L2之间没有初始连接;

3)构建第一基准点L1的激活数构建第二基准点L2的激 活数ML2=0;

4)构建第一基准点L1的作用范围的阈值构建第二基准点L2的作用范围的阈值所述的 dis tan ce(.,.)为相似性距离算法函数;

步骤3:进入针对语音数据的输入与竞争阶段,所述的针对语音 数据的输入与竞争阶段的具体方法如下:

1)从外部对用于处理语音数据的终端输入一个新的语音数据样本 ξ∈RD,其中RD表示D维实数向量,D表示自然数;

2)找出A中与ξ最相似的两个基准点,所述的最相似的两个基准 点分别为胜者基准点s1和亚军基准点s2,所述的胜者基准点s1和亚军基 准点s2分别由如下所示公式所求得:

s1=argminxAdistance(ξ,x)

s2=argminxA-{s1}distance(ξ,x);

步骤4:接着进入基准点更新阶段,所述的基准点更新阶段具体 如下:

1)如果或者成立,就为基准点集合A 生成一个新的基准点ξ,令A=A∪{ξ},其中表示针对胜者基准点s1的作用范围的阈值,表示针对亚军基准点s2的作用范围的阈值,然 后跳转至步骤3中继续执行;

2)如果胜者基准点s1和亚军基准点s2间不存在连接,令 C=C∪{(s1,s2)}即为胜者基准点s1和亚军基准点s2建立连接,然后令 即刷新边(s1,s2)的连接年龄;

3)如果(s1,Li)∈C,则即与胜者基准点s1相连的 所有边连接年龄增加1,其中Li表示基准点集合A中与胜者基准点s1有边相连的所有节点;

4)即把胜者基准点s1的激活数增加1;

5)将胜者基准点s1和输入的新的语音数据样本ξ变形到相等的长 度,即其中s1'为调整后的新的胜者基准点,而ξ' 为调整后的新的语音数据样本,所述的为变形转化函 数;

6)更新胜者基准点其中即执行胜 者基准点s1向输入的新的语音数据样本ξ移动操作;

7)检查所有连接(Li,Lj)∈C当前的连接年龄如果 就从边集合C中移除该连接,其中agemax是预先定义的 连接年龄的阈值参数;

步骤5:然后进入作用范围的阈值更新阶段,所述的作用范围的 阈值更新阶段包括将胜者基准点s1的作用范围的阈值和亚军基准点 s2的作用范围的阈值分别如下式所示来更新为与胜者基准点s1和亚 军基准点s2的相邻基准点的最大距离,其中x分别表示基准点集合A中 与胜者基准点s1有边相连的所有节点和基准点集合A中与亚军基准点 s2有边相连的所有节点:

Ts1=argmax(x,s1)Cdistance(x,s1)

Ts2=argmax(x,s2)Cdistance(x,s2);

步骤6:最后进入去噪阶段,所述的去噪阶段包括如果当前输入 的语音数据的样本总数是λ的整数倍,λ即为一个学习周期,检查整个 基准点集合A,如果存在只有一个相邻基准点的基准点,并且该基准 点的激活数小于设定的激活数的阈值,就在基准点集合A中删去该基 准点,然后跳转至步骤3中执行,等到训练用的语音数据样本全部输 入完毕后,就能得到所需的语音数据的基准点集合A以及基准点之间 的连接C。

所述的dis tan ce(.,.)表示的相似性距离度量算法函数是一种衡 量两个长度不同的语音数据的相似度的方法,其函数参数为两个长度 不同的语音数据,dis tan ce(.,.)表示的相似性距离度量算法函数通过 把语音数据进行缩短和延伸,来计算两个语音数据之间的相似程度, dis tan ce(.,.)表示的相似性距离度量算法函数的具体步骤如下所示:

1)首先对dis tan ce(.,.)表示的相似性距离算法函数输入两个语 音数据参数,所述的两个语音数据参数分别为第一语音数据参数x和 第二语音数据参数y;

2)构造一个|x|*|y|的网格,其中|x|是第一语音数据参数x的长 度,|y|是第二语音数据参数y的长度;

3)接着将网格的初始分辨率设置为最粗,即只有1*1个格子;

4)设定n*m表示网格当前的分辨率,从网格的左下角的坐标path (1,1)开始,到网格的右上角的坐标path(n,m)结尾,distance(.,.)表 示的相似性距离度量算法函数按照网格的坐标递增的顺序通过路径 规整化确定的相似性距离为相似性距 离最短的规整化的路径就是dis tan ce(.,.)表示的相似性距离度量算 法函数所得到的规整路径path,n、K、k和m均为自然数,其中K 表示规整化的路径经过的格子数;

5)将网格的分辨率加倍,即一个格子变成四个格子;

6)将所述的规整路径投影到分辨率加倍后的网格上;

7)在所述的规整路径投影到分辨率加倍后的网格上投影区域内找 出新的规整路径,设定p*q表示网格当前的分辨率,从网格的左下角 的坐标path(1,1)开始,到网格的右上角的坐标path(p,q)结尾,并且所 经过的网格的坐标都必须在所述的规整路径投影到分辨率加倍后的 网格上投影区域内,dis tan ce(.,.)表示的相似性度量距离算法函数按 照网格的坐标递增的顺序通过路径规整化确定的相似性度量距离为 相似性度量距离最短的规整化的路 径就是dis tan ce(.,.)表示的相似性距离度量算法函数所得到的规整 路径path,p、S、k和q均为自然数,其中S表示规整化的路径经过 的格子数;

8)若网格的分辨率达到原始值,即网格变成|x|*|y|,|x|是第一 语音数据参数x的长度,|y|是第二语音数据参数y的长度,则终止 dis tan ce(.,.)表示的相似性距离度量算法的过程,否则跳转至4)中 执行。

所述的表示的变形转化函数,其具体执行步骤如 下:

1)首先对第一变量i初始化赋值为1,对第二变量len初始化赋 值为最终的规整路径的长度,把调整后的新的胜者基准点s1'初始化为 空,把调整后的新的语音数据样本ξ'初始化为空;

2)若最终的规整路径中的胜者基准点s1一维坐标对应于输入的语 音数据样本ξ的多维坐标,转到3)中执行,若最终的规整路径中的 胜者基准点s1多维坐标对应于输入的语音数据样本ξ的一维坐标,转 到4)中执行,若最终的规整路径中的胜者基准点s1一维坐标对应于 输入的语音数据样本ξ的一维坐标,转到5)中执行;

3)对调整后的新的胜者基准点s1'和调整后的新的语音数据样本ξ' 分别增加维数据,其中s1'增加的数据值为所述的胜者基准点 s1的第i维数据,ξ'是将ξ对应的cnt维数据合并为维,然后转 到6)中执行,所述的cnt为最终的规整路径中的胜者基准点s1一维坐 标对应的输入的语音数据样本ξ的多维坐标的维数;

4)对调整后的新的胜者基准点s1'和调整后的新的语音数据样本 ξ'分别增加维数据,其中ξ'增加的数据值为所述的语音数据 样本ξ的第i维数据,s1'是将胜者基准点s1对应的cnt维数据合并为 维,然后转到6)中执行,所述的cnt为最终的规整路径中 的胜者基准点s1多维坐标对应于输入的语音数据样本ξ的一维坐标中 的最终的规整路径中的胜者基准点s1多维坐标的维数;

5)对调整后的新的胜者基准点s1'和调整后的新的语音数据样本 ξ'分别增加1维数据,其中s1'增加的数据值为所述的胜者基准点s1的 第i维数据,ξ′增加的数据值为所述的语音数据样本ξ的第i维数据, 设置cnt为1,转到6)中执行;

6)第一变量i赋值为i+cnt,如果第一变量i的值小于第二变量 len的值,返回2)中执行,否则返回所述的步骤4中执行。

针对本发明的具体实施例中的第一个,语音数据采用实验室采集 的语音数据集,其中包括10种语音数据,分别为一、二、三、四、 五、六、七、八、九、十。其中每种语音数据读十遍,共100条语音 数据,其中50条用于训练,50条用于测试,应用本发明的方法该实 施例的实验结果如表1:

表1

训练样本数 测试样本数 准确率 50 50 100%

针对本发明的具体实施例中的另一个,语音数据采用tidigits数据 集,tidigits数据集是国际论文中常用的用于语音识别的数据集,包括 11种语音数据,分别为 one,two,three,four,five,six,seven,eight,nine,oh,zero。参与语音数据采集 人员为:男,93人,女,114人。其中每人每个词读两遍,共4554 条语音数据,其中2554条用于训练,2000条用于测试,应用本发明 的方法该实施例的实验结果如表2:

表2

训练样本数 测试样本数 准确率 2554 2000 96%

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式 上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定 本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围 内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的 等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术 实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的 修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号