基于GMM和高层信息特征的文本无关说话人识别研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

为了考察和衡量文本无关的说话人识别的最新研究发展状况，美国国家标准与技术署(NIST)自1996年起开始举办说话人识别评测(SRE)。NIST说话人评测代表了了说话人识别领域的最先进水平，NIST设立了多项任务，探索和研究不同语音条件下的研究方法，并为各个项目提供统一的电话语音数据(多通道、多环境、说话人规模大)、测试平台、评测规则，以及评估标准。其中，采用长语音的说话人识别项目旨在利用语音信号中的高层次信息用于文本无关的说话人识别的研究，近年来，已经成为国外一些著名机构的研究热点。语音中的高层次信息往往是与文本内容有关的，因而如何从语音中提取出用于文本无关说话人识别的高层次信息特征便成为当前研究的重点。本文对韵律、发声特点等高层次特征信息的提取方法及其用于文本无关的说话人识别进行了深入研究。针对文本无关的说话人识别的特点，本文采用了概率统计模型的识别方法，将从与文木有关内容的语音韵律(X～t，X为语音特征)中的信息特征看作由韵律特征基元(称作超音段韵律信息特征)所组成的，通过对韵律特征基元分布的概率统计描述来实现说话人辨识。本文提出了一种基于多尺度小波分析从韵律中提取超音段韵律特征的方法，分别用于音源FO～t和声道MFCC～t的超音段韵律特征的提取。由描述缓变信息的概貌系数和描述快变信息的细节系数组成音源FO～t的六维超音段韵律特征参数PFO；而对于高维的声道MFCC～t，由于其各维参数的近似不相关和声道缓变的特点，从MFCC各维分别提取概貌系数组成声道超音段韵律特征参数PMFCC。在NIST068side数据库上的实验表明，PFO与短时FO相比，系统EER相对降低了23.66％，PMFCC达到了与短时倒谱参数MFCC相当的性能。鉴于音源参数与声道参数的互补性，本文研究了音源超音段韵律参数PFO与声道超音段韵律参数PMFCC的组合参数PMFCCFO。PMFCCFO较MFCC在NIST068side数据库EER相对降低40％，在微软数据库的实验则表明了PMFCCFO有较好的噪声鲁棒性。采用PMFCCFO与短时参数MFCC的子系统输出评分线性加权后，可进一步提高系统的识别性能。NIST083side评测任务中，采用了基于PMFCCFO的子系统与采用短时参数子系统的等权重输出评分加权，在电话语音条件下取得了最佳的DET曲线。本文还对从短时倒谱中间接提取发声位置特征用于文本无关说话人识别进行了研究，提出了一种基于特征空间映射的发声位置特征的提取方法，利用大量说话人的标准语音训练得到的MLP作为所有人共享的特征映射网络，提取出发声位置参数AF。AF参数反映了说话人的发声特点，与说话人发声器官物理属性和后天发声习惯相关，含有说话人信息，具有较好的噪声鲁棒性。与短时倒谱参数MFCC组成联合参数MFCCAF后，明显改善了说话人确认系统性能的性能与鲁棒性。GMM

著录项

作者
许东星;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科电路与系统
授予学位博士
导师姓名戴蓓蒨;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音信号处理;模式识别与装置;
关键词
说话人识别; 文本无关; 高层信息特征; GMM; 概率统计; 语音信号; 多尺度小波分析;

相似文献

中文文献
外文文献
专利

1. 基于超音段韵律特征和GMM-UBM的文本无关的说话人识别 [J] . 许东星 ,戴蓓缮 ,刘青松 . 中国科学技术大学学报 . 2010,第002期
2. GMM文本无关的说话人识别系统研究 [J] . 蒋晔 ,唐振民 . 计算机工程与应用 . 2010,第011期
3. 基于小波神经网络的与文本无关说话人识别方法研究 [J] . 白莹 ,赵振东 ,戚银城 . 电子与信息学报 . 2006,第006期
4. 基于聚类统计与文本无关的说话人识别研究 [J] . 邓浩江 ,王守觉 ,邢藏菊 . 电路与系统学报 . 2001,第003期
5. 基于区分性GMM文本无关的话者识别的研究 [J] . 付浩楠 ,吕成国 . 智能计算机与应用 . 2011,第002期
6. 一种改进的基于KPCA和SVM的文本无关说话人识别算法研究 [C] . 王昌昌 ,王成儒 . 2006年全国理论计算机科学学术年会 . 2006
7. 基于VQ和GMM的与文本无关的说话人识别研究 [A] . 陈伯胜 . 2007

基于GMM和高层信息特征的文本无关说话人识别研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅