首页> 中文学位 >基于GMM的说话人语音识别研究与实践
【6h】

基于GMM的说话人语音识别研究与实践

代理获取

目录

文摘

英文文摘

声明

第1章 绪论

1.1 引言

1.2 说话人识别技术导引

1.2.1 说话人识别的研究背景和意义

1.2.2 说话人识别技术的发展简史

1.2.3 说话人识别技术的应用领域和前景

1.3 论文的组织结构

第2章 说话人识别概论

2.1 说话人识别的概念

2.2 说话人识别的分类

2.3 说话人识别的原理和结构

2.4 说话人识别的常用方法

2.5 说话人识别技术的性能评价标准

2.6 说话人识别的难点

2.7 本章小结

第3章 语音信号处理及其特征提取

3.1 语音信号产生的机理

3.2 语音信号预处理

3.2.1 采样与量化

3.2.2 归一化处理(normalization)

3.2.3 语音信号的预加重(pre—emphasis)

3.2.4 语音信号的分帧与加窗

3.3 特征参数的提取

3.3.1 特征参数的基本概念

3.3.2 线性预测系数(LPC)和线性预测倒谱系数(LPCC)

3.3.3 Mel频率倒谱系数(MFCC)

3.4 本章小结

第4章 高斯混合模型及其辨认训练算法

4.1 高斯混合模型的基本概念

4.1.1 高斯混合模型的定义

4.1.2 高斯混合模型的阶数

4.1.3 高斯混合模型的说话人识别中的应用

4.2 EM算法

4.2.1 EM算法的引入

4.2.2 EM算法的介绍和初始化

4.2.3 EM算法在说话人识别中的应用

4.3 最大模型距离法(MMD)

4.4 实际应用中存在的几个问题

4.5 本章小结

第5章 系统构架实现与数据测试比较

5.1 软硬件平台

5.2 实验及训练语音库

5.3 系统的数据流和模块

5.4 识别率计算

5.5 系统搭建完成后的验证测试

5.5.1 预加重系数对系统性能的影响

5.5.2 MFCC各维参数进行加权处理对系统的影响

5.5.3 GMM模型阶数对系统性能的影响

5.5.4 测试语音单位长度对系统性能的影响

5.6 本论文所做的尝试与改进

5.6.1 将多线程并行技术应用于说话人识别中

5.6.2 一种提升含样本量较大待测语音库识别率的方法

5.7 本章小结

第6章 总结与展望

6.1 本文已取得的研究成果

6.2 有待进一步研究的工作

发表论文和科研情况说明

参考文献

后记

展开▼

摘要

说话人识别作为语音信号处理技术的一个代表和重要组成部分,近几年来,日益成为当今的一个研究热点,在电子商务、消费、银行等远程客户服务的身份认证,军事安全领域的说话人身份自动检测认证中具有极大的应用价值和广泛的应用前景。它是一种基于生物特征信息的身份识别方法,通过对说话人的语音进行分析,从而对说话人身份做出正确识别和判断的一项研究。依据判别方式的不同(一对多,一对一),说话人识别可以分为说话人辨认和说话人确认。随着交互技术和信息技术的飞速发展,说话人识别开始越来越受到大家的关注。
   本论文主要做的工作如下:
   首先,本文针对说话人识别的前端处理方面进行了相关研究,得出并实现了一个比较合理的处理算法;
   其次,讨论不同语音特征向量的提取方法,最终得出针对说话人识别而言比较合理的特征向量:美尔倒谱系数(MFCC)。在成功提取出MFCC的前提下,讨论了MFCC各维参数对最终结果的贡献;
   再次,在识别模型的训练方面,主要研究高斯混合模型的模型训练,在这种训练方法中,主要讨论了最大似然估计算法,期望-最大化算法以及最大模型距离法;
   再其次,在性能研究方面,研究了不同高斯混合密度下说话人辨认系统的识别率,认为高斯密度个数的选择与训练语音数据量具有相关性。同时验证了其他其它几个与识别率有关的参数因素与系统性能关系;
   最后,搭建了一个说话人识别系统用于试验测试,验证了一些参数对性能的影响,同时使用了多线程并行处理技术,以此缩短识别时间:并提出了一种放大特征向量差距,变换特征向量在特征空间的分布来提升大容量语音库中说话人识别率的方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号