首页> 中文学位 >基于矢量量化和高斯混合模型的说话人识别技术研究
【6h】

基于矢量量化和高斯混合模型的说话人识别技术研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景及意义

1.2研究现状

1.2.1说话人识别实用化进程

1.2.2说话人识别关键技术

1.2.3重点及难点

1.3论文工作及组织结构

第二章说话人识别原理

2.1语音物理基础

2.2说话人识别结构

2.3说话人识别理论基础

2.3.1特征提取

2.3.2模式识别

第三章预处理与特征提取

3.1预处理

3.1.1语音去噪

3.1.2端点检测

3.2特征参数提取

3.2.1特征评价方法

3.2.2常用特征性能分析

3.2.3准基音频率

第四章模式库建立与模式识别

4.1基于粗糙集的矢量量化

4.1.1粗糙集理论

4.1.2基于粗糙集的聚类算法

4.2基于自适应补偿的高斯混合模型

4.2.1自适应补偿基础

4.2.2自适应补偿算法原理

4.2.3自适应补偿法性能分析

第五章算法实现与实验结果

5.1语音库建立及信号预处理

5.1.1语音库建立

5.1.2预加重

5.1.3信号加窗

5.1.4语音去噪

5.1.5端点检测

5.2综合性能测试

5.2.1基于粗糙集的矢量量化

5.2.2基于自适应补偿的高斯混合模型

第六章结论

参考文献

致谢

攻读学位期间主要的研究成果

展开▼

摘要

说话人识别是生物识别的一个分支,正以其独特的方便性、经济性和准确性等优势受到世人瞩目,是当前安全认证系统研究和发展的必然趋势。本文就小规模文本无关说话人识别的理论和技术进行了系统的研究。分别在语音库建立、语音去噪、端点检测、特征提取及识别方法等5个方面取得了较有成效的进展。建立了一个基于说话人识别的小型语音库,完成了20个人的语音样本采集工作,为算法测试奠定了物质基础。针对基于软阈值的多尺度小波去噪方法对清音的功率谱破坏较大,不利于保持语音完整性的缺点,提出了分段小波去噪方法,较完整的保留了清音的功率谱,同时充分利用了基于软阈值的多尺度小波去噪方法的去噪能力。对分形维数在端点检测中的应用进行了研究,研究表明和短时能量、短时过零率相比,分形维数具有更好的鲁棒性,适用于低信噪比环境。比较和分析了现有说话人识别特征,表明梅尔倒谱系数在单独使用时优势明显,梅尔倒谱系数及其二阶差分系数的组合具有更好的区分能力。提出了一种基于语音频谱的准基音频率,该特征依赖于浊音的谱特性,和基音频率相比具有较好的抗噪声、抗长时变动的能力。在不改变空间复杂度,不明显增加时间复杂度的前提下,利用语音无精确类别的特性,将粗糙集引入矢量量化中,降低了噪声的干扰能力。利用各语音段被噪声干扰的程度不同,提出了一种自适应补偿的高斯混合模型法,在一定信噪比范围内提高了系统的识别性能。本文用MATLAB建立了文本无关说话人识别的实验平台,实验结果表明改进算法的整体性能要优于传统算法,其中采用分形端点检测,小波去噪,MFCC特征和基于粗糙集的矢量量化方法的性能较好,在20dB信噪比下,识别率可达到98.03%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号