首页> 中文学位 >说话人识别中提高GMM性能方法的研究
【6h】

说话人识别中提高GMM性能方法的研究

代理获取

目录

摘要

Abstract

第一章 绪论

§1.1 自动语音识别发展概述

§1.2 文本无关说话人识别

§1.3 说话人识别技术最新进展

§1.4 基于GMM说话人识别的一些问题

§1.5 本文的主要研究内容

§1.6 国内外研究背景

§1.7 论文内容的安排

第二章 基于高斯混合模型的说话人识别系统

§2.1 引言

§2.2 说话人识别基本过程

§2.3 Mel倒谱参数

§2.4 高斯混合模型

§2.5 模型参数估计

§2.5.1 最大似然准则

§2.5.2 最大似然估计

§2.6 对角协方差假设

§2.7 实验与讨论

§2.7.1 数据库描述

§2.7.2 混合度对识别率的影响

§2.7.3 训练集大小的影响

§2.7.4 测试语音长度的影响

§2.8 本章小结

第三章 参数共享与协方差直接估计

§3.1 引言

§3.2 特征矢量相关性分析

§3.3 采用全矩阵形式协方差的GMM

§3.4 共享全协方差矩阵的GMM

§3.4.1 共享全协方差矩阵

§3.4.2 参数估计

§3.5 相关系数矩阵共享的GMM

§3.5.1 相关系数矩阵

§3.5.2 相关系数矩阵共享

§3.6 高斯成分分类算法

§3.6.1 度量协方差矩阵相似性的距离测度

§3.6.2 分层聚类树

§3.7 实验结果与比较

§3.7.1 数据库描述

§3.7.2 全方差矩阵GMM系统

§3.7.3 共享协方差矩阵系统性能实验与比较

§3.7.4 共享相关系数矩阵系统性能实验与比较

§3.8 本章小结

第四章 基于模型的分类子空间解相关方法

§4.1 引言

§4.2 特征空间线性解相关

§4.2.1 主成分分析(PCA)

§4.2.2 线性区分性分析(LDA)

§4.2.3 特征空间解相关

§4.2.4 特征矢量空间中线性解相关的困难

§4.3 模型子空间线性解相关

§4.3.1 基于模型的子空间解相关方法

§4.3.2 基于分类的线性变换阵共享

§4.4 与其他模型解相关方法的比较

§4.4.1 最大似然线性变换(MLLT)

§4.4.2 半绑定的协方差矩阵(Semi-Tied Covariance)

§4.5 基于线性变换矩阵的距离测度

§4.6 实验结果与比较

§4.6.1 基于模型的子空间解相关与基准系统性能比较

§4.6.2 模型空间解相关与特征空间解相关的比较分析

§4.7 本章小结

第五章 共享相关系数矩阵GMM的自适应

§5.1 引言

§5.2 统一背景模型框架

§5.3 GMM模型参数的MAP估计

§5.3.1 参数估计

§5.3.2 简化的参数估计公式

§5.3.3 UBM-MAP-GMM的实现

§5.3.4 基于UBM-MAP-GMM的优势

§5.4 相关系数矩阵共享的模型自适应

§5.4.1 特征矢量各维相关性分析

§5.4.2 相关关系矩阵共享的MAP自适应

§5.5 实验与讨论

§5.5.1 衡量说话人确认性能的指标

§5.5.2 数据库描述

§5.5.3 基准系统性能

§5.5.4 相关系数矩阵共享UBM-MAP-GMM系统性能

§5.6 本章小结

第六章 超音段信息提取

§6.1 引言

§6.2 基于短时分析的基音参数

§6.2.1 基音周期的提取

§6.2.2 基音周期用于说话人识别

§6.2.3 噪声污染对基音提取的影响

§6.2.4 基于短时基音周期特征参数矢量

§6.3 基于基音轨迹的超音段信息

§6.3.1 固定窗长分段的超音段信息提取

§6.3.2 自然分段的超音段信息提取

§6.4 超音段信息参数的相关性分析

§6.5 实验分析与讨论

§6.5.1 超音段参数与短时音源参数的比较

§6.5.2 融合系统的话者确认性能

§6.6 本章小结

第七章 总结与展望

参考文献

发表或录用论文

致谢

展开▼

摘要

利用语音信号进行说话人身份识别,是语音研究领域的一个重要方向,具有越来越重要的社会意义和实用价值。根据说话的内容,可以分为文本相关和无关两个方面。由于文本无关具有更加灵活与适用面广的特点而成为主要研究课题。
  在文本无关说话人识别中,GMM将话者识别问题转换成对话者语音数据分布的估计问题,从而将复杂的语音训练、匹配的问题分解为模型表达形式的选择、模型参数的训练,以及概率的计算等等子问题,解决了话者识别任务中的很多难题。并且由于GMM具有简单、灵活、有效的特点以及较好的鲁棒性,迅速成为当今与文本无关的说话人识别中的主流技术。近年来,在复杂背景环境下,UBM-MAP-GMM表现出更为优异的性能,特别是对失配情况有很高的鲁棒性。
  然而,GMM对数据有较强的依赖性,在有限训练集下,过多的模型参数将不能保证可靠估计,这就限制了GMM模型的性能。首先,由于特征矢量维数较高,使用全矩阵形式协方差会导致参数巨大而无法可靠估计。其次,虽然使用对角形式的协方差矩阵模型参数较少,但是其隐含的前提假设是参数各维之间不相关,这种假设是不合理的。最后,由于自适应数据有限,使得目前对UBM作自适应得到目标GMM时只能自适应均值,而无法对协方差参数进行自适应。
  为了进一步提高文本无关说话人识别系统的性能,本文从上述三个方面展开研究,分别提出不同的方法,在有限的训练集的条件下,提高文本无关下的GMM模型性能。
  首先,针对全协方差矩阵模型参数过多,难以可靠估计的问题。本文提出了一种基于相关系数矩阵共享的协方差矩阵直接估计方法。这种方法既保证了GMM总的模型参数不致过高,可以可靠估计,又使得GMM具有显式描述特征矢量各维之间的相关性能力。
  其次,虽然可以在特征空间进行线性解相关,使特征矢量各维相关性减弱,使之适合对角协方差假设。然而,由于特征矢量分布形式的复杂性,很难找到一个线性变换矩阵,为空间中所有的特征矢量解相关。因此,本文提出了一种基于模型的分类子空间解相关的方法,利用GMM对特征矢量空间分布的描述,将特征空间分解成多个子空间,在每个子空间中分别进行特征矢量的线性解相关,从而使解相关更为精细。
  为了有效实现上述两种方法,本文分别提出了两种对GMM中的高斯成分进行分类的算法。基于相关系数矩阵的分类方法,保证了协方差直接估计方法的合理性;而基于相似变换矩阵的分类方法,可使模型子空间解相关方法能有效实现。
  最后,针对目前对UBM作自适应只能自适应均值的问题,本文提出了一种基于相关系数矩阵共享的MAP方法,通过共享降低了对自适应数据的要求,保证协方差参数自适应的可靠性,进一步提高了UBM-MAP-GMM的性能。
  以上各方法的实验都取得了良好的效果,证明了方法的有效性。最后,本章对基于超音段特征参数的系统采用了相关系数矩阵共享的UBM-MAP-GMM框架,也较大得提高了基于超音段特征参数的辅助系统的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号