首页> 中文学位 >基于含噪短语音的鲁棒说话人识别研究
【6h】

基于含噪短语音的鲁棒说话人识别研究

代理获取

目录

声明

摘要

1 绪论

1.1 说话人识别概述

1.1.1 说话人识别的研究意义与典型应用

1.1.2 说话人识别的发展与现状

1.2 说话人识别的分类

1.3 说话人识别系统结构

1.3.1 说话人识别系统结构

1.3.2 说话人辨认系统结构

1.4 说话人识别系统性能评价

1.4.1 说话人识别系统的性能评价

1.4.2 说话人辨认系统的性能评价

1.5 说话人识别的特征提取

1.5.1 说话人识别理想特征提取

1.5.2 说话人识别特征分类

1.6 说话人识别的主要模型

1.6.1 模板模型

1.6.2 统计模型

1.6.3 人工神经网络

1.6.4 支持向量机

1.7 本文研究工作概述

1.8 本文的结构安排

2 含噪短语音说话人识别解决方案

2.1 引言

2.2 噪声的类型以及噪声的影响

2.3 短语音说话人识别研究

2.4 短语音说话人识别研究面临的困难

2.5 含噪短语音说话人识别综合性解决方案

2.5.1 语音的预处理

2.5.2 噪声的去除

2.5.3 语音帧的分类

2.5.4 多种特征的提取

2.5.5 识别模型的改进

2.6 本章小结

3 基于多特征融合的含噪短语音说话人识别研究

3.1 引言

3.2 语音净化算法

3.2.1 噪声分离算法

3.2.2 差异检测与剔除算法

3.3 实验结果与分析—语音净化算法研究

3.3.1 实验语音库

3.3.2 语音预处理

3.3.3 初步噪声分离算法有效性研究

3.3.4 差异检测与剔除算法有效性研究

3.4 MFCC特征、ICAf特征、IMFCC特征及其组合的研究

3.4.1 提取MFCC特征、ICAf特征和IMFCC特征

3.4.2 特征组合模型训练

3.4.3 特征组合模型决策

3.5 实验结果与分析—MFCC特征、ICAf特征、IMFCC特征及其组合研究

3.6 提取WOCOR特征和特征组合MFCC_D_LPCC

3.6.1 WOCOR特征

3.6.2 特征组合MFCC_D_LPCC

3.6.3 实验结果与分析—单一特征参数研究

3.6.4 实验结果与分析—特征参数组合研究

3.6.5 WOCOR特征和特征组合MFCC_D_LPCC相结合的说话人识别系统

3.7 特征组合中单一特征的融合系数优化

3.7.1 种群初始化

3.7.2 变异操作

3.7.3 交叉操作

3.7.4 选择操作

3.8 GMM模型和GMM-UBM模型

3.9 综合实验结果与分析

3.9.1 语音净化算法与单一特征及其组合的研究

3.9.2 识别模型与单一特征及其组合的研究

3.9.3 特征组合中单一特征的融合系数优化研究

3.9.4 测试人数对含噪短语音说话人识别率影响的研究

3.10 本章小结

4 含噪短语音噪声分离算法和语音帧质量判别算法

4.1 引言

4.2 基于受限NMF的噪声分离算法CNMF

4.3 语音帧质量判别算法—ISNRDA

4.3.1 混合语音谱特征提取

4.3.2 改进信噪比判别算法

4.4 语音帧质量判别算法—差异检测与判别算法(DDADA)

4.5 基于受限NMF的信噪比判别算法(NMF-SNRDA)

4.6 基于GMM-UBM两阶段分类模型

4.7 实验结果与分析

4.7.1 实验语音库

4.7.2 噪声分离方法对识别率的影响

4.7.3 语音帧质量判别算法ISNRDA对识别率的影响

4.7.4 语音帧质量判别算法DDADA对识别率的影响

4.7.5 语音帧质量判别算法NMF-SNRDA对识别率的影响

4.7.6 四种语音帧质量判别算法的比较

4.8 本章小结

5 双重信息质量判别算法和三阶段分类模型

5.1 双重信息质量判别算法

5.2 双重判别算法实验结果与分析

5.3 GMM-UBM三阶段分类模型

5.4 GMM-UBM三阶段分类模型实验结果与分析

5.5 局部模糊PCA降维

5.5.1 模糊K均值聚类算法

5.5.2 初始化聚类中心及其改进

5.5.3 PCA降维

5.6 基于模糊PCA的GMM

5.7 判决策略

5.8 实验结果与分析

5.8.1 模糊PCA降维实验

5.8.2 不同GMM参数初始化方法对识别率的影响

5.9 本章小结

6 总结与展望

6.1 总结

6.2 研究展望

致谢

参考文献

攻读博士学位期间发表的论文和出版著作情况

攻读博士学位期间参加的科学研究情况

攻读博士学位期间学术成果获奖情况

展开▼

摘要

说话人自动识别技术在众多需要语音辅助的应用下,已发展成为越来越重要的现代生物认证技术。之前的研究表明,对于训练和测试声学环境一致的高质量语音已可以获得很好的结果。然而现实生活中,往往遇到语料缺失、环境噪声等问题,此时说话人识别系统性能严重下降,为了进一步提高说话人识别的实用性,鲁棒性研究是说话人识别领域至关重要的研究热点。本文针对含噪短语音的鲁棒说话人识别技术进行了研究和探索。为了提高含噪短语音的说话人识别率,本文涉及的补偿算法有多特征融合算法、噪声分离算法、语音帧质量判别算法、识别模型优化和改进。
  本文的主要工作和创新成果点集中在以下几个方面:
  (1)针对含噪短语音说话人辨认训练和测试语料不充分的特点,将声源信息与声道信息相结合,弥补在语料信息严重缺失的情况下,只提取单一特征不能充分表达说话人语音特征的缺陷。提取的多种特征的噪声鲁棒性和识别能力不同,可以起到互补的作用,并使用差分进化算法优化特征组合中单一特征的融合系数。实验证明,在相同条件下使用特征组合综合系统(MFCC_D_LPCC+WOWOR4)+(MFCC_D_LPCC+WOWOR6)+(MFCC_D_LPCC+WOWOR8)的含噪短语音说话人识别率比使用单一特征MFCC平均提高13.34%,比使用特征组合MFCC_DLPCC平均提高10.21%。在各种信噪比环境下,使用差分进化算法优化特征组合中单一特征的融合系数可以使系统的识别率平均提高1.62%。
  (2)为了降低噪声对说话人识别效果的影响,对噪声进行分离是重要的。提出了基于受限非负矩阵分解(Constrained Non-negative Matrix Factorization,CNMF)的噪声分离算法用于分离环境噪声,该算法首先使用FastICA噪声分离算法对含噪短语音进行分离,将其结果作为NMF(Non-negative Matrix Factorization)的初始值,并在NMF中加入鉴别性限制,以便有效分离噪声。实验证明,相同条件下CNMF分离算法的识别率比随机初始化NMF分离算法的识别率平均提高3.75%。
  (3)使用CNMF算法对含噪短语音进行噪声分离之后,语音帧仍然不同程度地含有残留噪声,需要对其进一步处理:使用语音帧质量判别算法将语音帧分为高质量类和低质量类,高质量类语音帧直接用于说话人识别,低质量类语音帧进行处理后用于说话人识别,既可以显著降低噪声的影响,又可以充分地利用含噪短语音的有限语料用于说话人识别,有助于提高含噪短语音的说话人识别率。本文分别提出了三种语音帧质量判别算法,分别是改进的信噪比判别算法(Improved SNR Discrimination Algorithm,ISNRDA)、差异检测与判别算法(Differences Detection and Discrimination Dlgorithm,DDADA)、基于NMF的信噪比判别算法(NMF-SNR Discrimination Algorithm,NMF-SNRDA)。实验证明,相同条件下使用ISNRDA判别算法相比分离噪声后不进行语音帧质量判别与分类可以平均提高含噪短语音的说话人识别率3.26%,使用DDADA判别算法的识别率相比使用ISNRDA判别算法的识别率平均提高1.71%,使用NMF-SNRDA判别算法的识别率相比使用DDADA判别算法的识别率平均提高1.74%。
  (4)为了更加精确地对语音帧进行分类,本文提出了双重信息质量判别算法。若两种语音帧质量判别算法同时判定一个语音帧为高质量,则将该语音帧分类为高质量类;若一种语音帧质量判别算法判定一个语音帧为高质量,另一种语音帧质量判别算法判定该语音帧为低质量,则将该语音帧分类为中等质量类;若两种语音帧质量判别算法同时判定一个语音帧为低质量,则将该语音帧分类为低质量类。实验证明,在各种信噪比环境下,本文提出的双重信息质量判别算法与单一判别算法相比,含噪短语音的说话人识别率平均提高2.32%。
  (5)分类得到的三类语音帧分别与本文构建的GMM-UBM三阶段分类模型相结合,使短语音的有限语料得到更加充分地利用,有效的降低了噪声和语料缺失对含噪短语音说话人识别率的影响。实验数据证明,相同条件下双重信息质量判别算法的各种组合与GMM-UBM三阶段分类模型相结合的含噪短语音说话人识别率比与GMM-UBM两阶段分类模型结合的识别率平均提高2.4%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号