首页> 中国专利> 一种基于随机映射直方图模型的文本无关说话人鉴别装置

一种基于随机映射直方图模型的文本无关说话人鉴别装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明实施例公开了一种基于随机映射直方图模型的文本无关说话人鉴别方法。该方法包括如下步骤：特征提取步骤：将非归一化递增的线谱频率特征变换归一化的差分线谱频率特征并将相邻帧的差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。模型训练步骤：根据复合差分线谱频率特征的分布特点设计随机映射参数，对训练数据集进行随机映射并通过计算平均直方图来构建概率模型。鉴别步骤：对待鉴别人的语音信号按照步骤一提取特征后输入到步骤二训练得到的模型中，计算针对每个概率模型的似然值，获取最大似然值，确认说话人编号。利用本发明实施例，能够提高文本无关的说话人鉴别率，具有很大的实用价值。

著录项

公开/公告号CN103985384A

专利类型发明专利
公开/公告日2014-08-13

原文格式PDF
申请/专利权人北京邮电大学;
展开▼

申请/专利号CN201410232526.2
发明设计人于泓;马占宇;郭军;
展开▼

申请日2014-05-28
分类号G10L17/02;G10L17/04;G10L25/18;
代理机构
代理人
地址 100876 北京市海淀区西土城路10号
入库时间 2023-12-17 00:35:36

法律信息

法律状态公告日

法律状态信息

法律状态
2015-04-15

授权

授权
2014-09-10

实质审查的生效 IPC(主分类):G10L17/02 申请日:20140528

实质审查的生效
2014-08-13

公开

公开

说明书

技术领域

本发明属于音频处理领域着重描述了一种基于随机映射直方图模型的文本无关说话人鉴别装置。

背景技术

说话人识别是计算机利用语音片段中所包含的能够反映说话人特征的信息来鉴定说话人身份的技术，该技术在信息安全，远程身份认证等领域具有非常重要的研究及应用价值。

根据识别对象的不同，可以将说话人鉴别分为文本有关和文本无关两类。其中文本有关的说话人鉴别技术，要求利用说话人发音的关键词和关键句子作为训练样本，辨别时利用相同的内容发音进行鉴定，这种系统使用不便且关键内容容易被窃录。文本无关的说话人辨认技术，在训练时和辨认时都不规定说话内容，识别对象是自由的语音信号，需要在自由的语音信号中找到能表征说话人的信息的特征和方法，因此建立说话人模型相对困难，但该技术使用方便安全。本发明所描述的是文本无关的鉴别装置。

说话人鉴别通常包含3个组成部分(1)从训练语音数据集中提取能够表达说话人特点的特征；(2)为说话人训练一个能够反映其语音特征分布规律的模型；(3)通过计算输入语音的特征与已获取的训练模型的契合程度来进行做出最终决策。

常用的说话人鉴别系统在特征提取部分中采用MFCC(Mel-frequency Cepstral Coefficients,梅尔倒谱系数)或者LSF(Line Spectral Frequencies，线谱频率)作为基本特征，在模型训练部分中采用GMM(Gaussian Mixture Model，高斯混合模型)或者统计直方图作为概率模型。

传统的特征易于受到噪声干扰且难以表达动态信息，GMM模型只适用对于分布范围较广的特征进行建模，统计直方图模型虽然可以对任意分布的特征信号进行建模，但当训练样本不足或特征维度过高时，建立的模型中存在大量的零点，导致结果不连续。本发明所描述的文本无关的说话人识别方法可以大大的解决上述的问题。

发明内容

为了解决上述技术所存在的缺陷并提高文本无关的说话人鉴别率，本发明提供一种基于复合差分线谱频率特征与随机变换直方图模型的文本无关说话人鉴别方法，包括以下步骤：

一.特征提取步骤：

A、差分线谱频率特征提取步骤：将从语音线性预测编码模型中获取的K维非归一化递增的线谱频率特征变换为K+1维归一化的差分线谱频率特征。

B、生成复合差分线谱频率特征的步骤：将相邻的3帧差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。

二.随机映射直方图模型训练步骤：对于每个说话人的训练语音按照步骤一的描述提取T帧复合差分线谱频率特征作为1组训练数据集。采用随机映射的方法对该训练数据集进行H次随机变换得到H组训练特征。对每组特征进行直方图统计，并利用H组训练特征的平均直方图作为该说话人的概率模型。最终每个说话人都会训练得到一个属于自己的模型。

三.鉴别匹配步骤：输入一段语音后，采用步骤一的方法生成1组特征并将该特征输入步骤二中训练得到的各个说话人的模型中，计算这组特征针对每一个模型的似然值，取其中最大似然值来确认说话人的编号。

根据本发明的一个实施方式的一种与文本无关的说话人鉴别方法，步骤A所描述的归一化的差分线谱频率特征提取方式如下：

其中[x₁,x₂,…,x_K]^T为变换前的K维线谱频率特征，△x为变换后K+1维的归一化差分线谱频率特征

根据本发明的一个实施方式的一种与文本无关的说话人鉴别方法，步骤B中描述的复合差分线谱频率特征的具体生成过程如下：

假设第t帧的差分线谱频率特征为△x(t)，则第t帧的复合差分线谱频率特征为：

Sup△x(t)＝[△x(t-τ)^T,△x(t)^T,△x(t+τ)^T]^T

其中τ为正整数，本发明中取τ＝1。

根据本发明的一个实施方式的一种与文本无关的说话人鉴别方法，步骤二中所描述的模型训练方法如下：

1)对维度D＝K+1的复合差分线谱频率特征进行随机映射变换，变换公式为:y＝Ax+b，其中A 为D×D维的随机旋转缩放矩阵，b为D×1维的随机平移向量。

2)随机平移向量b＝[b₁,b₂,…,b_i,…b_K+1]^T中的每一个元素取值为0～1之间均匀分布的随机变量。

3)旋转缩放矩阵A为随机旋转单位矩阵U与随机缩放对角矩阵Λ的乘积

A＝ΛU

|U|＝1

4)随机旋转单位矩阵U的设计过程如下：

①生成一个D×D维的随机矩阵V，V中的每一个元素都满足0～1之间的均匀分布

②对矩阵V进行QR分解V＝QR，其中Q为单位正交矩阵

③通过判断Q的行列式值是否等于1，来对元素q₁₁进行修正保证Q的的行列式的值为1

5)随机缩放对角矩阵Λ的设计过程如下：

复合差分线谱频率特征的第j个维度的元素满足Beta分布，其概率密度函数为

$Beta (x_{j}; α_{j}, β_{j}) = \frac{Γ (α_{j} + β_{j})}{Γ (α_{j}) Γ (β_{j})} x_{j}^{α_{j} - 1} {(1 - x_{j})}^{β_{j} - 1}$

设

$R (x_{j}; α_{j}, β_{j}) = \int_{0}^{1} B {eta}^{2} (x_{j}; α_{j}, β_{j}) {dx}_{j}$

$h_{j} = R {(x_{j}; α_{j}, β_{j})}^{- \frac{1}{2}} {(6 Π_{i = 1}^{D} R {(x_{i}; α_{i}, β_{i})}^{\frac{1}{2}})}^{\frac{1}{2 + D}} N^{- \frac{1}{2 + D}}$

其中D为复合差分线谱频率特征的维度，N为训练特征的数目。

则对角矩阵Λ中对角线元素的取值为

$\log (λ_{j}) = Uniform [θ_{\min} + \log (h_{j}^{- 1}), θ_{\max} + \log (h_{j}^{- 1})]$

其中θ_min＝0，θ_max＝2为松弛参数。

6)训练数据经随机映射后构建概率模型方式如下：

$HD (x) = π_{ZeroDens} p (x | ZeroDens) + \frac{1 - π_{ZeroDens}}{H} Σ_{i}^{H} p (x | A_{i}, b_{i}),$

前半部分为直方图中零点的位置进行概率估计，其中为统计直方图中零点出现的概率。p(x|ZeroDens)为零点位置的先验概率，这里的先验为复合狄利克雷过程。输入的特征向量为：

x＝Sup△x(t)＝[△x(t-τ)^T,△x(t)^T,△x(t+τ)^T]^T＝[△x₁,△x₂,△x₃]^T

$p (x | ZeroDens) = Π_{n = 1}^{3} \frac{Γ (Σ_{k = 1}^{K + 1} α_{n, k})}{Π_{k = 1}^{K + 1} Γ (α_{n, k})} Π_{k = 1}^{K + 1} {({Δx}_{n, k})}^{α_{n, k} - 1}$

后半部分为平均统计直方图概率估计，其中H为进行随机映射的次数，1组含有N个训练数据的训练数据集经过H次随机映射后变换为H组训练数据集

其中p(x|A_i,b_i)为输入测试数据x在第i次变换中的直方图概率估计，定义如下：

$p (x | A_{i}, b_{i}) = \frac{1}{Hv} Σ_{j = 1}^{N} II (round (y_{j}), round (y))$

y＝A_ix+b_i

v＝|A_i|^-1

根据本发明的一个实施方式的一种与文本无关的说话人鉴别方法，步骤三中所描述的鉴别匹配方法实现方法为：将输入的特征数据集输送到针对于每个说话人训练好概率模型中，计算似然值。

$L_{j} (\tilde{x}) = Σ_{i = 1}^{N} \log ({HT}_{j} (x_{i}))$

其中为测试特征集关于第j个说话人模型的似然值，通过取其中最大似然值来确认说话人的编号。

本发明的有益效果在于，相对于现有技术而言，本发明应用复合差分线谱频率特征作为说话人的特征加以提取，使用随机映射直方图训练概率模型，又给出完整的实施系统用于应用，实验结果验证了本发明的高效性，具有很强的实用性。

下面将结合附图对本发明具体实施方式进行详细说明。

图1是本发明的流程图，其中实线表示训练部分流程走向，虚线表示鉴别部分流程走向，包括以下步骤：

第一步：特征提取步骤，从训练的说话人语音序列中提取复合差分线谱频率特征。

步骤S1：将线谱频率特征转换为差分线谱频率特征；

步骤S2：对S1中获取的差分线谱频率特征进行组合获取复合差分线谱频率特征。

第二步：训练概率模型

步骤S3：构建随机映射直方图模型拟合复合差分线谱频率特征的分布，实现细节如图2所示。

第三步：鉴别过程

对待鉴别的说话人语音序列重复进行第一步中的步骤S1和步骤S2生成复合差分线谱频率特征测试集，输入步骤S3所训练得到的模型。

步骤S4：计算针对每个概率模型的似然值，获取最大似然值，确认说话人编号。

下面将对每个步骤进行具体的说明：

步骤S1实现差分线谱频率特征的提取，将从语音线性预测编码模型中获取的K维非归一化递增的线谱频率特征变换为K+1维归一化的差分线谱频率特征，其实现方法如下：

其中[x₁,x₂,…,x_K]^T为变换前的K维线谱频率特征，△x为变换后K+1维的归一化差分线谱频率特征。

步骤S2将相邻的3帧差分线谱频率特征进行组合生成复合差分线谱频率特征以表达信号的动态特性。假设第t帧的差分线谱频率特征为△x(t)，则第t帧的复合差分线谱频率特征为：

Sup△x(t)＝[△x(t-τ)^T,△x(t)^T,△x(t+τ)^T]^T

其中τ为正整数，本发明中取τ＝1。

步骤S3：构建随机映射直方图模型拟合复合差分线谱频率特征的分布，具体的实现流程如图2所示：

1)根据复合差分线谱频率特征的整体分布获取直方图中零点处的先验概率。

设输入的合复合差分线谱频率特征向量为：

x＝Sup△x(t)＝[△x(t-τ)^T,△x(t)^T,△x(t+τ)^T]^T＝[△x₁,△x₂,△x₃]^T

则复合差分线谱频率特征的整体的分布为：

$p (x | ZeroDens) = Π_{n = 1}^{3} \frac{Γ (Σ_{k = 1}^{K + 1} α_{n, k})}{Π_{k = 1}^{K + 1} Γ (α_{n, k})} Π_{k = 1}^{K + 1} {({Δx}_{n, k})}^{α_{n, k} - 1}$

在直方图中零点出现的先验概率为

$π_{ZeroDens} = \frac{1}{N + 1}$

则直方图中零点位置的先验分布为：

π_ZeroDensp(x|ZeroDens)

2)对输入的合复合差分线谱频率特征向量进行随机映射构建并计算平均直方图。

对维度D＝K+1的复合差分线谱频率特征进行随机映射变换的公式为y＝Ax+b，其中A为D×D维的随机旋转缩放矩阵，b为D×1维的随机平移向量。

随机平移向量b＝[b₁,b₂,…,b_i,…b_K+1]^T中的每一个元素取值为0～1之间均匀分布的随机变量。

随机旋转缩放矩阵A可分解为随机旋转单位矩阵U与随机缩放对角矩阵Λ的乘积

A＝ΛU

|U|＝1

其中随机旋转单位矩阵U的设计过程如下：

①生成一个D×D维的随机矩阵V，V中的每一个元素都满足0～1之间的均匀分布

②对矩阵V进行QR分解V＝QR，其中Q为单位正交矩阵

③通过判断Q的行列式值是否等于1，来对元素q₁₁进行修正保证Q的行列式的值为1

随机缩放对角矩阵Λ的设计过程如下：

①计算复合差分线谱频率特征向量中每一个元素的分布。第j维度的元素满足Beta分布，其概率密度函数为

$Beta (x_{j}; α_{j}, β_{j}) = \frac{Γ (α_{j} + β_{j})}{Γ (α_{j}) Γ (β_{j})} x_{j}^{α_{j} - 1} {(1 - x_{j})}^{β_{j} - 1}$

②计算每一个维度上直方图的最优bin宽h

$R (x_{j}; α_{j}, β_{j}) = \int_{0}^{1} B {eta}^{2} (x_{j}; α_{j}, β_{j}) {dx}_{j}$

$h_{j} = R {(x_{j}; α_{j}, β_{j})}^{- \frac{1}{2}} {(6 Π_{i = 1}^{D} R {(x_{i}; α_{i}, β_{i})}^{\frac{1}{2}})}^{\frac{1}{2 + D}} N^{- \frac{1}{2 + D}}$

其中D为复合差分线谱频率特征的维度，N为训练特征的数目。

③根据最优bin宽h生成对角矩阵Λ中对角线元素的值λ

$\log (λ_{j}) = Uniform [θ_{\min} + \log (h_{j}^{- 1}), θ_{\max} + \log (h_{j}^{- 1})],$ 其中θ_min＝0，θ_max＝2为松弛参数。

根据上述流程获取随机变换参数A、b后，对训练特征数据集进行H次随机变换，1组含有N个训练样本的训练数据集经过随机映射后生成H组训练数据集其中 H组训练数据集的平均直方图为：

$\frac{1 - π_{ZeroDens}}{H} Σ_{i}^{H} p (x | A_{i}, b_{i})$

其中p(x|A_i,b_i)为输入测试数据x在第i次变换中的直方图概率估计，定义如下：

$p (x | A_{i}, b_{i}) = \frac{1}{Hv} Σ_{j = 1}^{N} II (round (y_{j}), round (y))$

y＝A_ix+b_i

v＝|A_i|^-1

因此最终获取的随机映射直方图图概率估计模型为：

$HD (x) = π_{ZeroDens} p (x | ZeroDens) + \frac{1 - π_{ZeroDens}}{H} Σ_{i}^{H} p (x | A_{i}, b_{i})$

步骤S4所述的鉴别匹配方法实现方法为：

将输入的特征数据集输送到针对于每个说话人训练好概率模型中，计算似然值。

$L_{j} (\tilde{x}) = Σ_{i = 1}^{N} \log ({HT}_{j} (x_{i}))$

其中为测试特征集关于第j个说话人模型的似然值，通过取其中最大似然值来确认说话人的编号。

以上结合附图对所提出的基于复合差分线谱频率特征与随机变换直方图模型的文本无关的说话人识别方案的具体实施方式进行了阐述。通过以上实施方式的描述，所属领域的一般技术人员可以清楚的了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现，该软件产品存储在一个存储介质中，包括若干指令用以使得一台或多台计算机设备执行本发明各个实施例所述的方法。

依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

以上所述的本发明实施方式，并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于随机映射直方图模型的文本无关说话人鉴别装置 [P] . 中国专利： CN103985384B . 2015.04.15
2. 一种基于随机映射直方图模型的文本无关说话人鉴别装置 [P] . 中国专利： CN103985384A . 2014-08-13
3. Speaker Identification Method Converged with Text Dependant Speaker Recognition and Text Independant Speaker Recognition in Artificial Intelligence Secretary Service and Voice Recognition Device Used Therein [P] . 韩国专利： KR101993827B1 . 2019-06-27

机译：融合了人工智能秘书服务中基于文本的说话人识别和基于文本的说话人识别的说话人识别方法及其中使用的语音识别装置
4. Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition [P] . 美国专利： US2008312926A1 . 2008-12-18

机译：自动与文本无关，与语言无关的说话人语音打印创建和说话人识别
5. Speaker selecting arrangement and speaker adaptation model compilation device, speaker selective method, program and speaker adaptation model compilation program for speaker selection [P] . 日本专利： JPWO2008117626A1 . 2010-07-15

机译：说话人选择装置和说话人适应模型编辑装置，说话人选择方法，用于说话人选择的程序和说话人适应模型编辑程序