首页> 中文学位 >基于因子分析概率统计模型的说话人识别
【6h】

基于因子分析概率统计模型的说话人识别

代理获取

摘要

说话人识别是根据说话人所发语音,确定出说话人是谁的过程,也就是基于声音这个生物特征作为身份认证依据的识别技术。说话人识别具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。其研究具有越来越重要的社会意义和实用价值,因而在国际和国内都受到了极大的关注。 根据不同的应用场合,说话人识别可以分为说话人辩认和说话人确认。本论文就说话人识别中的说话人辨认问题,采用基于因子分析的概率统计模型方法,从与文本无关的角度,对语音端点检测、基于FAHMM和FAGMM的说话人模型、基于最大似然估计(MLE)的EM算法和基于区分性训练的MCE算法等各方面进行了较深入的研究。 首先,详细讨论了说话人确认中两种最常用到的基于概率统计的说话人模型:隐马尔柯夫模型(HMM)和高斯混合模型(GMM)。仔细分析了HMM和GMM作为说话人模型的优越之处及其意义。在对HMM和GMM的概念进行了详细的讨论后,我们重点分析了影响其识别性能的一个关键问题,即模型的训练算法。主要介绍了常规的基于最大似然估计的Baum-Welch算法。 接着,探讨了语音信号的端点检测及噪声鲁棒性问题。在强噪声环境下,现有的算法无法检测到准确的端点,研究自适应于环境噪声的语音端点检测方法是解决噪声背景下说话人识别和语音识别的关键。为了提高端点检测的正确率,选择合适的声学特征也至关重要。我们以表征语音信号复杂程度的近似熵(Approximate Entropy, ApEn)为声学特征,尝试性地提出了一种在噪声环境下的端点检测方法,即通过分析语音信号的近似熵来进行。实验表明,在强噪声环境下,该方法能够比较准确地检测语音信号的端点。 为了解决说话人识别中的帧内相关问题,从模型端出发,引入因子分析的降维统计方法,结合目前的主流模型HMM和GMM分别对说话人进行建模,即FAHMM和FAGMM,并在我们自己录制的50个人(30个男性,20个女性)的数据集上,对这两个模型进行了与文本无关的说话人辨认实验: 在基于FAHMM的实验中,讨论了三种不同的参数共享方式下说话人识别的性能。实验表明:FAHMM相对于采用对角阵形式的HMM,能够更好的解决特征矢量帧内相关问题;在相同的实验条件下,采用共享观测矩阵的FAHMM能够得到更好的识别性能,相对于HMM,误识率相对下降了30%。 在基于FAGMM的系统中,我们推导了FAGMM的期望最大训练算法和最小分类错误算法。实验结果表明,FAGMM在同一测试数据集上的识别性能比GMM要好。而且通过可区分性算法,即最小分类错误算法使得系统的性能得到进一步提升。 最后,对本论文的工作进行了总结与展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号