法律状态公告日
法律状态信息
法律状态
2014-07-30
未缴年费专利权终止 IPC(主分类):G10L17/00 授权公告日:20100303 终止日期:20130531 申请日:20050531
专利权的终止
2010-03-03
授权
授权
2007-04-11
实质审查的生效
实质审查的生效
2007-02-14
公开
公开
技术领域
本发明涉及使用声波中包含的个人性信息来识别说话人的说话人识别装置、程序以及说话人识别方法。
背景技术
作为说话人识别装置,提出了一种通过既定内容的语音进行说话人的识别(辨认)的文本依赖型的说话人识别装置,特别提出了一种比较从语音中提取的特征参数时间序列从而识别说话人的说话人识别装置。
在说话人识别装置中,一般将识别所使用的声波分割为每数毫秒的帧,对每个该帧求各种音响参数,例如倒谱系数并作为特征参数(语音特征参数),使用将其在全部语音区间内作为时间序列的数据来进行说话人识别(说话人辨认)。
特征参数一般在第一意义上包含音韵性信息,在第二意义上包含个人性信息。在对依赖于个人性信息的说话人识别使用这样的特征参数的情况下,如果不从特征参数中消除音韵性信息则不能确保稳定的识别性能。
因此,在现有的文本依赖型的说话人识别装置中,为了消除音韵性信息,使用将要比较的特征参数时间序列的时间轴非线性缩小比例尺的时间标准化方法(DP匹配)来计算同一音韵之间的距离(参照非专利文献1)。如图6所示,进行DP匹配的DP匹配单元200求匹配模式(pattern)(DP路径),以使进行比较的两个特征参数时间序列A、B间的距离为最小。此时,在DP匹配的算法上,DP路径被求出,同时最小化距离被计算出。辨认单元201基于该最小化距离进行说话人的辨认。
非专利文献1:古井贞熙著“音声情報処理”森北出版株式会社P.91-93第一版
发明内容
但是,由于现有的DP匹配进行要比较的两个特征参数时间序列间的距离的最小化,因此作为以求说话人的语音的不同为目的的说话人识别的方法不适当。即,由于过剩的时间伸缩而破坏说话人所特有的单词内的时间构造,作为结果,存在不能将说话人间的差异充分反映在距离上的问题。为了解决该问题,也进行对时间伸缩设置限制的方法(匹配窗),但在该方法中,反而存在发生在同一说话人间进行不同音韵间的对应的危险性的问题。这些问题由于通过同一计算方法求DP路径的最佳化所使用的距离和用于判别说话人的距离而引起,难以进行精度高的说话人识别。
本发明的目的在于实现精度高的说话人识别。
本发明是基于第一语音特征参数时间序列和第二语音特征参数时间序列的时间序列间的距离,进行说话人的识别的说话人识别装置,其特征在于,所述说话人识别装置包括:设定将所述第一语音特征参数时间序列以及所述第二语音特征参数时间序列的各语音特征参数相互建立对应的匹配序列,使用各自的第一语音特征参数组,按照所述匹配序列求各语音特征参数间的第一距离,并求该第一距离的总和的部件;求最佳匹配序列以使所述第一距离的总和成为最小的部件;使用所述第一语音特征参数时间序列以及所述第二语音特征参数时间序列各自的第二语音特征参数组,按照所述最佳匹配序列,求各语音特征参数间的第二距离,并求该第二距离的总和的部件;以及基于求出的所述第二距离的总和进行说话人的辨认的部件。
从另一方面来看,本发明是执行说话人识别功能的计算机可读取的程序,该说话人识别功能基于第一语音特征参数时间序列和第二语音特征参数时间序列的时间序列间的距离,进行说话人的识别,其特征在于,所述程序使所述计算机执行以下功能:设定将所述第一语音特征参数时间序列以及所述第二语音特征参数时间序列的各语音特征参数相互建立对应的匹配序列,使用各自的第一语音特征参数组,按照所述匹配序列求各语音特征参数间的第一距离,并求该第一距离的总和的功能;求最佳匹配序列以使所述第一距离的总和成为最小的功能;使用所述第一语音特征参数时间序列以及所述第二语音特征参数时间序列各自的第二语音特征参数组,按照所述最佳匹配序列,求各语音特征参数间的第二距离,并求该第二距离的总和的功能;以及基于求出的所述第二距离的总和进行说话人的辨认的功能。
从另一方面来看,本发明是基于第一语音特征参数时间序列和第二语音特征参数时间序列的时间序列间的距离,进行说话人的识别的说话人识别方法,其特征在于,所述说话人识别装置包括:设定将所述第一语音特征参数时间序列以及所述第二语音特征参数时间序列的各语音特征参数相互建立对应的匹配序列,使用各自的第一语音特征参数组,按照所述匹配序列求各语音特征参数间的第一距离,并求该第一距离的总和的步骤;求最佳匹配序列以使所述第一距离的总和成为最小的步骤;使用所述第一语音特征参数时间序列以及所述第二语音特征参数时间序列各自的第二语音特征参数组,按照所述最佳匹配序列,求各语音特征参数间的第二距离,并求该第二距离的总和的步骤;以及基于求出的所述第二距离的总和进行说话人的辨认的步骤。
附图说明
图1是表示本发明的第一实施方式的说话人识别装置的结构的方框图。
图2是表示本发明的第一实施方式的说话人识别装置具有的说话人辨认单元的结构的方框图。
图3是表示本发明的第二实施方式的说话人识别装置具有的说话人辨认单元的结构的方框图。
图4是表示特征参数的结构的示意图。
图5是表示由软件实现本发明的情况下说话人识别装置的结构例的方框图。
图6是表示现有的说话人识别装置的一部分的结构的方框图。
具体实施方式
基于图1以及图2说明本发明的第一实施方式。图1是表示本实施方式的说话人识别装置的结构的方框图,图2是表示说话人识别装置具有的说话人辨认单元的结构的方框图。本实施方式的说话人识别装置是文本依赖型的说话人识别装置的一例。
如图1所示,说话人识别装置100包括麦克风1、低通滤波器2、A/D转换单元3、特征参数生成单元4、说话人辨认单元5、说话人模型生成单元6以及存储单元7。
麦克风1是将被输入了的语音变换为电模拟信号的变换单元。低通滤波器2是从被输入的模拟信号中截断规定频率以上的频率并输出的滤波器。A/D转换单元3是将被输入的模拟信号用规定的采样频率、量化位数变换为数字信号的变换单元。通过这些麦克风1、低通滤波器2、A/D转换单元3构成用于输入语音的语音输入部件。
特征参数生成单元4是从被输入了的数字信号中依次提取包含个人性信息的特征参数,并生成特征参数时间序列(特征矢量列)后输出的生成输出单元。在本实施方式中,特征参数生成单元4对有声区间的声波进行帧分析,从而求Δ间距以及16次倒谱系数,生成由Δ间距时间序列以及16次倒谱系数时间序列构成的特征参数时间序列。另外,倒谱系数时间序列的次数不限定为16次。
说话人模型生成单元6是根据由特征参数生成单元4生成的特征参数时间序列和注册说话人的ID来生成说话人模型的生成单元。存储单元7是存储(注册)由说话人模型生成单元6生成的说话人模型的存储单元。在本实施方式中,说话人模型被预先注册在存储单元7中。
说话人辨认单元5计算由特征参数生成单元4生成的特征参数时间序列和预先注册在存储单元7中的说话人模型的距离,基于该距离进行说话人的辨认,并将该辨认结果作为说话人识别结果输出。
这样的说话人辨认单元5如图2所示,包括DP匹配单元11、说话人之间距离计算单元12以及辨认单元13。由这些各单元执行各种部件(或步骤)。
对DP匹配单元11以及说话人之间距离计算单元12分别输入特征参数时间序列A、B。特征参数时间序列A、B包含Δ间距时间序列。另外,在本实施方式中,特征参数时间序列A是根据从麦克风1输入的声波而生成的特征数据,特征参数时间序列B是注册在存储单元7中的说话人模型的特征数据。这里,特征参数时间序列A是第一语音特征参数时间序列,特征参数时间序列B是第二语音特征参数时间序列。下面表示这样的特征参数时间序列A、B。
特征参数时间序列
A=α1,α2,…,αi,…,αI
B=β1,β2,…,βj,…,βJ
特征数据
αi=pi,αi1,αi2,…,αik,…,αi16
βj=qj,βj1,βj2,…,βjk,…,βj16
特征参数αi,βj是对有声区间的声波进行帧分析而得到的Δ间距(pi,qj)和16次倒谱系数(αi1~αi16,βj1~βj16)构成。从而,特征参数时间序列A、B由Δ间距时间序列和16次倒谱系数时间序列构成。这里,相对地Δ间距包含较多的音韵性信息,倒谱系数包含较多的个人性信息。
DP匹配单元11进行DP匹配处理,以便两个特征参数时间序列A、B的音韵之间对应。此时,通过DP匹配算法进行最佳化,以便作为第一距离的音韵性距离d(i,j)的总和D(F)为最小,并求最佳匹配序列F。
这里,最佳匹配序列F作为时间对应因子cn的序列如式(1)这样被定义,各特征参数间的音韵性距离d(i,j)使用Δ间距如下述式(1)这样被定义,总和D(F)如下述式(3)这样被定义。即,最佳匹配序列F、音韵性距离d(i,j)及其总和D(F)分别通过下述式(1)、式(2)以及式(3)被求出。
[算式1]
F=c1,c2,---,cn,---,cN,cn=(in,jn) ····(1)
[算式2]
d(i,j)=|pi-qj| ····(2)
[算式3]
如详细叙述,DP匹配单元11使用两个特征参数时间序列A、B的各自的Δ间距时间序列,通过式(2)来求音韵性距离d(i,j),并通过式(3)求其总和D(F)。此时,通过式(3)以及式(1)进行最佳化,以使总和D(F)为最小,从而求最佳匹配序列F。这里,Δ间距时间序列是第一语音特征参数组。
说话人之间距离计算单元12使用由DP匹配单元11求出的最佳匹配序列F,计算作为第二距离的个人性距离e(i,j)的总和E(F)。这里,个人性距离e(i,j)如下述式(4)这样被定义,总和E(F)如下述式(5)这样被定义。即,个人性距离e(i,j)及其总和E(F)分别通过下述式(4)以及式(5)被求出。
[算式4]
[算式5]
如详细叙述,说话人之间距离计算单元12使用两个特征参数时间序列A、B的各自的倒谱系数时间序列,通过式(4)来求个人性距离e(i,j),并基于最佳匹配序列F,通过式(5)求其总和E(F)。在本实施方式中,作为倒谱系数时间序列,使用1~16次的倒谱系数时间序列。另外,倒谱系数时间序列是第二语音特征参数组。
辨认单元13基于由说话人之间距离计算单元12求出的个人性距离的总和E(F)进行说话人的辨认,并将其辨认结果作为说话人识别结果输出。这里,例如将总和E(F)与阈值进行比较,进行说话人辨认的判定(说话人对照)。
这样,根据本实施方式,使用两个特征参数时间序列A、B的各自的Δ间距时间序列来求音韵性距离的总和D(F)为最小的最佳间距序列F,使用该最佳匹配序列和两个特征参数时间序列A、B的各自的倒谱系数时间序列求个人性距离的总和E(F),基于该总和E(F)进行说话人的辨认。由此,将语音特征参数时间序列A、B匹配时的音韵分解性能和求语音特征参数时间序列间的距离时的说话人分解性能并存,可以确保稳定的识别性能,因此可以实现精度高的说话人识别。此外,DP路径的最佳化所使用的距离和用于判别说话人的距离用不同的方法被求出,因此可以将说话人间的差异充分地反映到距离上,此外由于可以在同一说话人间抑制不同音韵间的对应,所以可以实现精度高的说话人识别。
这里,在音韵性距离和个人性距离所使用的特征参数互相独立的情况下,在特征参数的变化量多的部位发生匹配偏离(时间偏离)的可能性高。在该情况下,如下述式(6)所示这样,将音韵性距离e(i,j)如下述式(6)这样变形来施加稍微的“平均”作用,从而可以改善匹配偏离。
[算式6]
····(6)
此外,通过相互进行上述“平均”作用,可以得到更稳定的音韵性距离。在该情况下,将音韵性距离e(i,j)如下述式(7)这样变形。
平均距离被定义为双方的相加平均。
[算式7]
····(7)
在本实施方式中,作为第一语音特征参数时间序列的特征参数时间序列A以及作为第二语音特征参数时间序列的特征参数时间序列B包括从语音的基本频率得到的基本频率信息时间序列,以及从声道的共鸣信息得到的共鸣信息时间序列,第一语音特征参数组是基本频率信息时间序列,第二语音特征参数组是共鸣信息时间序列,因此可以可靠地实现高精度的说话人识别。
在本实施方式中,特征参数时间序列A以及特征参数时间序列B包括从语音的抑扬信息得到的Δ间距时间序列,以及从声道的共鸣信息得到的倒谱系数时间序列,作为第一距离的音韵性距离d以及作为第二距离的个人性距离e通过
[算式8]
d=|pk-qk|
k0≥1
d,e:第一距离、第二距离
p:第一语音特征参数时间序列的Δ间距
q:第二语音特征参数时间序列的Δ间距
ak:第一语音特征参数时间序列的倒谱系数
bk:第二语音特征参数时间序列的倒谱系数
k:倒谱次数
而被求出,因此可以更可靠地实现精度高的说话人识别。
在本实施方式中,特征参数时间序列A的第i个特征参数αi和特征参数时间序列B的第j个特征参数βj的个人性距离e(i,j)通过
[算式9]
dist(X,Y):语音特征参数X和Y的距离
L:平均宽度(>0)
而被求出,因此可以改善匹配偏离。
此外,特征参数时间序列A的第i个特征参数αi和特征参数时间序列B的第j个特征参数βj的个人性距离e(i,j)通过
[算式10]
dist(X,Y):语音特征参数X和Y的距离
L:平均宽度(>0)
而被求出时,可以得到更稳定的音韵性距离。
基于图3以及图4说明本发明的第二实施方式。图3是表示本实施方式的说话人识别装置具有的说话人辨认单元的结构的方框图,图4是表示特征参数的结构的示意图。
本实施方式是第一实施方式所示的说话人辨认单元5的变形例。另外,与所述第一实施方式相同的部分用相同符号表示,说话人辨认单元5以外的说明省略。此外,在本实施方式中,特征参数生成单元4对有声区间的声波进行帧分析来求16次倒谱系数,生成由16次倒谱系数构成的特征参数时间序列。另外,倒谱系数时间序列的次数不限定于16次。
如图3所示,说话人辨认单元5基本上与第一实施方式同样,包括DP匹配单元11、说话人之间距离计算单元12以及辨认单元13。由这些各单元执行各种部件(或步骤)。
对DP匹配单元11以及说话人之间距离计算单元12分别输入特征参数时间序列A、B。另外,在本实施方式中,特征参数时间序列A是根据从麦克风1输入的声波而生成的特征数据,特征参数时间序列B是注册在存储单元7中的说话人模型的特征数据。这里,特征参数时间序列A是第一语音特征参数时间序列,特征参数时间序列B是第二语音特征参数时间序列。下面表示这样的特征参数时间序列A、B。
特征参数时间序列
A=α1,α2,…,αi,…,αI
B=β1,β2,…,βj,…,βJ
特征数据
αi=αi1,αi2,…,αik,…,αi16
βj=βj1,βj2,…,βjk,…,βj16
特征参数αi,βj是对有声区间的声波进行帧分析而得到的由16次倒谱系数(αi1~αi16,βj1~βj16)构成。从而,特征参数时间序列A、B是16次倒谱系数的时间序列。另外,这里,1~8次的倒谱系数时间序列是低次的倒谱系数时间序列,m~16(m>8)次的倒谱系数时间序列是高次的倒谱系数时间序列。
DP匹配单元11进行DP匹配处理,以便两个特征参数时间序列A、B的音韵之间对应。此时,通过DP匹配算法进行最佳化,以便作为第一距离的音韵性距离d(i,j)的总和D(F)为最小,并求最佳匹配序列F。
这里,最佳匹配序列F作为时间对应因子cn的序列如式(1)这样被定义,各特征参数间的音韵性距离d(i,j)使用低次的倒谱系数如下述式(8)这样被定义,总和D(F)如下述式(3)这样被定义。即,最佳匹配序列F、音韵性距离d(i,j)及其总和D(F)分别通过下述式(1)、式(8)以及式(3)被求出。
[算式11]
F=c1,c2,---,cn,---,cN,cn=(in,jn) ····(1)
[算式12]
[算式13]
如详细叙述,DP匹配单元11使用两个特征参数时间序列A、B的各自的低次的倒谱系数时间序列(1~8的倒谱系数时间序列),通过式(8)来求音韵性距离d(i,j),并通过式(3)求其总和D(F)。此时,通过式(3)以及式(1)进行最佳化,以使总和D(F)为最小,从而求最佳匹配序列F。这里,低次的倒谱系数时间序列是第一语音特征参数组。
说话人之间距离计算单元12使用由DP匹配单元11求出的最佳匹配序列F,计算作为个人性距离e(i,j)的总和E(F)。这里,个人性距离e(i,j)如下述式(4)这样被定义,总和E(F)如下述式(5)这样被定义。即,个人性距离e(i,j)及其总和E(F)分别通过下述式(4)以及式(5)被求出。
[算式14]
[算式15]
如详细叙述,说话人之间距离计算单元12使用包含两个特征参数时间序列A、B的各自的高次的倒谱系数时间序列(m~16(m>8)次的倒谱系数时间序列)的倒谱系数时间序列,通过式(4)来求个人性距离e(i,j),并基于最佳匹配序列F,通过式(5)求其总和E(F)。在本实施方式中,作为倒谱系数时间序列,使用1~16次的倒谱系数时间序列。这里,高次的倒谱系数一般比低次的倒谱系数包含更多的个人性信息。另外,倒谱系数时间序列是第二语音特征参数组。
这里,如图4所示,在具有1~N次的倒谱系数的特征参数中,在将1~n次的倒谱系数作为低次的倒谱系数(图4(a)中斜线部分)的情况下,高次的倒谱系数是m~N(m>n)次的倒谱系数。该高次的倒谱系数被时间序列化的序列是高次的倒谱系数时间序列。从而,包含高次的倒谱系数时间序列的倒谱系数时间序列也可以是仅由m~N(m>n)次的倒谱系数(图4(b)中网线部分)构成的时间序列,或者也可以是由m~N(m>n)次的倒谱系数以及低次的倒谱系数的一部分(图4(c)中网线部分)构成的时间序列,进而也可以是由1~N次的倒谱系数(图4(d)中网线部分)构成的时间序列。另外,在本实施方式中,设定为N=16以及n=8,但不限于此。
辨认单元13基于由说话人之间距离计算单元12求出的个人性距离的总和E(F)进行说话人的辨认,并将其辨认结果作为说话人识别结果输出。这里,例如将总和E(F)与阈值进行比较,进行说话人辨认的判定(说话人对照)。
这样,根据本实施方式,使用两个特征参数时间序列A、B的各自的低次的倒谱系数时间序列来求音韵性距离的总和D(F)为最小的最佳间距序列F,使用该最佳匹配序列和包含两个特征参数时间序列A、B的各自的高次的倒谱系数时间序列的倒谱系数时间序列求个人性距离的总和E(F),基于该总和E(F)进行说话人的辨认。由此,将语音特征参数时间序列A、B匹配时的音韵分辩性能和求语音特征参数时间序列间的距离时的说话人分辨性能并存,可以确保稳定的识别性能,因此可以实现精度高的说话人识别。此外,DP路径的最佳化所使用的距离和用于判别说话人的距离用不同的方法被求出,因此可以将说话人间的差异充分地反映到距离上,此外由于可以在同一说话人间抑制不同音韵间的对应,所以可以实现精度高的说话人识别。
在本实施方式中,作为第一语音特征参数时间序列的特征参数时间序列A以及作为第二语音特征参数时间序列的特征参数时间序列B是从声道的共鸣信息得到的倒谱系数时间序列,第一语音特征参数组是倒谱系数时间序列中的低次的倒谱系数时间序列,第二语音特征参数组是包含倒谱系数时间序列中的高次的倒谱系数时间序列的倒谱系数时间序列,因此可以可靠地实现高精度的说话人识别。
在本实施方式中,作为第一语音特征参数时间序列的特征参数时间序列A以及作为第二语音特征参数时间序列的特征参数时间序列B是从声道的共鸣信息得到的倒谱系数时间序列,作为第一距离的音韵性距离d以及作为第二距离的个人性距离e通过
[算式16]
N<M,k0≥1
d,e:第一距离、第二距离
ak:第一语音特征参数时间序列的倒谱系数
bk:第二语音特征参数时间序列的倒谱系数
k:倒谱次数
而被求出,因此可以可靠地实现高精度的说话人识别。
另外,本发明不限定于如前述的实施方式所示的特定的硬件结构,用软件也可以实现。即,可用软件实现说话人辨认单元5的功能(说话人识别功能)。图5是表示由软件实现本发明的情况下的说话人识别装置100的结构例的方框图。
如图5所示,说话人识别装置100包括集中控制该说话人识别装置100的各部分的CPU101,该CPU101上通过总线连接存储了BIOS等的ROM或由可改写地存储各种数据的RAM构成的存储器102,构成微型计算机。此外,CPU101上经由未图示的I/O总线连接有HDD(Hard Disk Drive,硬盘驱动器)103、对计算机可读取的存储介质的CD(Compact Disc,光盘)-ROM104进行读取的CD-ROM驱动器105、主管说话人识别装置100和因特网等的通信的通信装置106、键盘107、CRT或LCD等显示装置108、麦克风1。
CD-ROM104等计算机可读取的存储介质中存储了实现本发明的说话人识别功能的程序,通过将该程序安装在说话人识别装置100中,可以使CPU101执行本发明的说话人识别功能。此外,从麦克风1输入的语音临时被存储在HDD103等中。然后,程序被起动时,HDD103等中临时保存的语音数据被读入,执行说话人识别处理。该说话人识别处理实现与特征参数生成单元4或说话人辨认单元5等各部分同样的功能。由此,可以得到与所述实施方式的效果同样的效果。
另外,作为存储介质,不仅可以使用CD-ROM104,也可以使用DVD等各种光盘、各种光磁盘、软盘等各种磁盘、半导体存储器等各种方式的介质。此外,也可以从因特网等网络下载并安装在HDD103中。在该情况下,作为发送端的服务器中存储了程序的存储装置也成为本发明的存储介质。另外,程序可以是在规定的OS(Operating System,操作系统)上动作的程序,在该情况下,也可以是将后述的各处理的一部分的执行转移到OS的程序,也可以是作为文字处理软件等规定的应用软件或构成OS等的一组程序文件的一部分而包含的程序。
机译: 说话人识别系统,说话人识别方法和说话人识别程序
机译: 融合了人工智能秘书服务中基于文本的说话人识别和基于文本的说话人识别的说话人识别方法及其中使用的语音识别装置
机译: 说话人识别装置,说话人识别方法和程序