首页> 中文学位 >基于GMM和高层信息特征的文本无关说话人识别研究
【6h】

基于GMM和高层信息特征的文本无关说话人识别研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章绪论

1.1概述

1.2 NIST说话人评测

1.3文本无关的说话人确认

1.3.1 DET曲线

1.3.2等误识率

1.3.3检测代价函数

1.4本文的研究背景与关键问题

1.4.1研究背景

1.4.2关键问题

1.5本文的主要研究内容

第2章基于GMM-UBM的文本无关的说话人识别原理

2.1概述

2.2统计模型-GMM

2.2.1高斯混合模型(GMM)

2.2.2 GMM模型的参数估计

2.2.3 GMM概率输出

2.3基于GMM的说话人确认

2.3.1基于GMM-UBM的说话人确认

2.3.2 GMM-UBM-MAP结构的说话人识别模型

2.4实验与结论

2.4.1实验数据库

2.4.2混合度对系统性能的影响

2.4.3两种模型结构的比较

2.4.4数据量对GMM-UBM-MAP结构系统性能的影响

2.5本章小结

第3章基于短时特征参数的说话人识别

3.1引言

3.2语音信号的产生机理

3.3声道参数及其在说话人中的应用

3.3.1倒谱分析及MFCC参数的提取

3.3.2基于MFCC的说话人识别

3.4短时音源参数

3.4.1基音周期的提取

3.4.2短时音源参数

3.4.3短时音源参数辅助提高说话人识别性能

3.5木章小结

第4章基于音源超音段韵律信息的说话人识别

4.1概述

4.2超音段基频韵律特征提取

4.2.1基于分段线性模型的提取方法

4.2.2超帧韵律特征

4.2.3基于小波分析的提取方法

4.3超音段韵律特征用于文本无关说话人确认

4.3.1数据库介绍及参数提取

4.3.2不同阶次小波分析韵律特征的比较

4.3.3韵律特征与短时特征的比较

4.3.4概貌韵律特征与细节韵律特征的比较

4.3.5超音段韵律特征组合参数PFO

4.3.6训练语音数量对超音段韵律特征的影响

4.3.7超音段韵律特征与短时特征的互补性

4.4本章小结

第5章声道超音段韵律特征

5.1引言

5.2声道超音段韵律特征

5.2.1声道韵律

5.2.2超音段声道韵律特征PMFCC

5.2.3 PMFCC用于说话人确识

5.3音源和声道的超音段韵律组合参数PMFCCFO

5.3.1不同尺度的PMFCCFO

5.3.2训练集大小对确认性能的影响

5.3.3 PMFCCFO参数的噪声鲁棒性

5.4输出评分线性融合

5.4.1线性加权系统融合

5.4.2 PMFCCFO与MFCC系统的线性融合

5.5 NIST长语音说话人评测

5.5.1数据库

5.5.2多子系统融合的说话人确认

5.5.3评测结果分析

5.6本章小结

第6章基于特征映射网络的发声器官位置信息特征

6.1概述

6.2语音的发声特点

6.2.1语音发声特点

6.2.2汉语声母发声特点

6.3普通话声母发声位置参数

6.3.1 AF参数的提取

6.3.2 AF参数的噪声鲁棒性

6.3.3 MFCC-AF组合参数

6.4本章小结

第7章总结与展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

为了考察和衡量文本无关的说话人识别的最新研究发展状况,美国国家标准与技术署(NIST)自1996年起开始举办说话人识别评测(SRE)。NIST说话人评测代表了了说话人识别领域的最先进水平,NIST设立了多项任务,探索和研究不同语音条件下的研究方法,并为各个项目提供统一的电话语音数据(多通道、多环境、说话人规模大)、测试平台、评测规则,以及评估标准。其中,采用长语音的说话人识别项目旨在利用语音信号中的高层次信息用于文本无关的说话人识别的研究,近年来,已经成为国外一些著名机构的研究热点。 语音中的高层次信息往往是与文本内容有关的,因而如何从语音中提取出用于文本无关说话人识别的高层次信息特征便成为当前研究的重点。本文对韵律、发声特点等高层次特征信息的提取方法及其用于文本无关的说话人识别进行了深入研究。 针对文本无关的说话人识别的特点,本文采用了概率统计模型的识别方法,将从与文木有关内容的语音韵律(X~t,X为语音特征)中的信息特征看作由韵律特征基元(称作超音段韵律信息特征)所组成的,通过对韵律特征基元分布的概率统计描述来实现说话人辨识。 本文提出了一种基于多尺度小波分析从韵律中提取超音段韵律特征的方法,分别用于音源FO~t和声道MFCC~t的超音段韵律特征的提取。由描述缓变信息的概貌系数和描述快变信息的细节系数组成音源FO~t的六维超音段韵律特征参数PFO;而对于高维的声道MFCC~t,由于其各维参数的近似不相关和声道缓变的特点,从MFCC各维分别提取概貌系数组成声道超音段韵律特征参数PMFCC。在NIST068side数据库上的实验表明,PFO与短时FO相比,系统EER相对降低了23.66%,PMFCC达到了与短时倒谱参数MFCC相当的性能。 鉴于音源参数与声道参数的互补性,本文研究了音源超音段韵律参数PFO与声道超音段韵律参数PMFCC的组合参数PMFCCFO。PMFCCFO较MFCC在NIST068side数据库EER相对降低40%,在微软数据库的实验则表明了PMFCCFO有较好的噪声鲁棒性。采用PMFCCFO与短时参数MFCC的子系统输出评分线性加权后,可进一步提高系统的识别性能。NIST083side评测任务中,采用了基于PMFCCFO的子系统与采用短时参数子系统的等权重输出评分加权,在电话语音条件下取得了最佳的DET曲线。 本文还对从短时倒谱中间接提取发声位置特征用于文本无关说话人识别进行了研究,提出了一种基于特征空间映射的发声位置特征的提取方法,利用大量说话人的标准语音训练得到的MLP作为所有人共享的特征映射网络,提取出发声位置参数AF。AF参数反映了说话人的发声特点,与说话人发声器官物理属性和后天发声习惯相关,含有说话人信息,具有较好的噪声鲁棒性。与短时倒谱参数MFCC组成联合参数MFCCAF后,明显改善了说话人确认系统性能的性能与鲁棒性。GMM

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号