摘要
Abstract
第一章 绪论
§1.1 自动语音识别发展概述
§1.2 文本无关说话人识别
§1.3 说话人识别技术最新进展
§1.4 基于GMM说话人识别的一些问题
§1.5 本文的主要研究内容
§1.6 国内外研究背景
§1.7 论文内容的安排
第二章 基于高斯混合模型的说话人识别系统
§2.1 引言
§2.2 说话人识别基本过程
§2.3 Mel倒谱参数
§2.4 高斯混合模型
§2.5 模型参数估计
§2.5.1 最大似然准则
§2.5.2 最大似然估计
§2.6 对角协方差假设
§2.7 实验与讨论
§2.7.1 数据库描述
§2.7.2 混合度对识别率的影响
§2.7.3 训练集大小的影响
§2.7.4 测试语音长度的影响
§2.8 本章小结
第三章 参数共享与协方差直接估计
§3.1 引言
§3.2 特征矢量相关性分析
§3.3 采用全矩阵形式协方差的GMM
§3.4 共享全协方差矩阵的GMM
§3.4.1 共享全协方差矩阵
§3.4.2 参数估计
§3.5 相关系数矩阵共享的GMM
§3.5.1 相关系数矩阵
§3.5.2 相关系数矩阵共享
§3.6 高斯成分分类算法
§3.6.1 度量协方差矩阵相似性的距离测度
§3.6.2 分层聚类树
§3.7 实验结果与比较
§3.7.1 数据库描述
§3.7.2 全方差矩阵GMM系统
§3.7.3 共享协方差矩阵系统性能实验与比较
§3.7.4 共享相关系数矩阵系统性能实验与比较
§3.8 本章小结
第四章 基于模型的分类子空间解相关方法
§4.1 引言
§4.2 特征空间线性解相关
§4.2.1 主成分分析(PCA)
§4.2.2 线性区分性分析(LDA)
§4.2.3 特征空间解相关
§4.2.4 特征矢量空间中线性解相关的困难
§4.3 模型子空间线性解相关
§4.3.1 基于模型的子空间解相关方法
§4.3.2 基于分类的线性变换阵共享
§4.4 与其他模型解相关方法的比较
§4.4.1 最大似然线性变换(MLLT)
§4.4.2 半绑定的协方差矩阵(Semi-Tied Covariance)
§4.5 基于线性变换矩阵的距离测度
§4.6 实验结果与比较
§4.6.1 基于模型的子空间解相关与基准系统性能比较
§4.6.2 模型空间解相关与特征空间解相关的比较分析
§4.7 本章小结
第五章 共享相关系数矩阵GMM的自适应
§5.1 引言
§5.2 统一背景模型框架
§5.3 GMM模型参数的MAP估计
§5.3.1 参数估计
§5.3.2 简化的参数估计公式
§5.3.3 UBM-MAP-GMM的实现
§5.3.4 基于UBM-MAP-GMM的优势
§5.4 相关系数矩阵共享的模型自适应
§5.4.1 特征矢量各维相关性分析
§5.4.2 相关关系矩阵共享的MAP自适应
§5.5 实验与讨论
§5.5.1 衡量说话人确认性能的指标
§5.5.2 数据库描述
§5.5.3 基准系统性能
§5.5.4 相关系数矩阵共享UBM-MAP-GMM系统性能
§5.6 本章小结
第六章 超音段信息提取
§6.1 引言
§6.2 基于短时分析的基音参数
§6.2.1 基音周期的提取
§6.2.2 基音周期用于说话人识别
§6.2.3 噪声污染对基音提取的影响
§6.2.4 基于短时基音周期特征参数矢量
§6.3 基于基音轨迹的超音段信息
§6.3.1 固定窗长分段的超音段信息提取
§6.3.2 自然分段的超音段信息提取
§6.4 超音段信息参数的相关性分析
§6.5 实验分析与讨论
§6.5.1 超音段参数与短时音源参数的比较
§6.5.2 融合系统的话者确认性能
§6.6 本章小结
第七章 总结与展望
参考文献
发表或录用论文
致谢