首页> 中文学位 >基于SVM的文本无关的说话人辨认技术研究
【6h】

基于SVM的文本无关的说话人辨认技术研究

代理获取

目录

声明

专用术语注释表

第一章 绪论

1.1研究背景

1.2说话人识别技术的发展历史

1.3本文研究内容和安排

第二章 说话人辨认系统概述

2.1说话人识别基本系统结构

2.2语音预处理

2.3 特征参数

2.4说话人识别的主要方法

第三章 基于重组超矢量的GMM-SVM说话人辨认系统

3.1 引言

3.2 基于GMM-SVM的说话人辨认系统

3.4 基于重组超矢量的GMM-SVM说话人辨认

3.5实验结果与分析

第四章 基于DNN-SVM的说话人辨认系统

4.1引言

4.2深度学习的发展历史

4.3提取说话人语音特征的深度神经网络

4.4基于DNN-SVM的说话人辨认系统构建

4.5实验结果与分析

第五章 总结与展望

5.1工作总结

5.2展望

参考文献

附录1 攻读硕士学位期间撰写的论文

附录2 攻读硕士学位期间申请的专利

附录3 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

语音是人类最有效的交流方式,因为其独特性使其成为说话人识别技术的基本依据。在说话人识别基本框架下,寻找一种区分性强的说话人个性特征以获得更高的系统性能是当前说话人识别领域的研究热点。模型选择和特征提取是说话人识别技术中重点考虑的问题,在确定了模型选择的条件下,说话人识别系统性能的好坏就主要决定于选取何种类型的特征参数。当今数字化时代,寻找一种优越的说话人个性特征具有很好的理论研究意义和现实意义。
  本文的研究目标是设计能够使说话人识别系统的识别性能提升或系统时间复杂度降低的语音特征。为此重点研究了GMM Supervector在说话人识别系统中的特性,并在此基础上提出了重组超矢量,结合支持向量机的特性分析重组超矢量的可行性;接着研究了近几年热门的深度学习,设计了一个深度神经网络来提取说话人语音的瓶颈特征。本文的主要工作和创新如下:
  (1)本文介绍了说话人识别的基本框架,主要包括语音预处理方法、特征提取方法和说话人识别模型。详细介绍了LPC、MFCC及它们的倒谱特征的提取过程,并分析它们的特性。除此之外,还介绍了模板匹配算法、隐马尔科夫模型法、矢量量化法、高斯混合模型法、支持向量机法以及深度神经网络法这几种经典的说话人识别方法。通过前期的研究发现,后三种方法在说话人识别系统中表现相对更佳,所以本文对说话人识别的研究也是基于这三种方法上的。
  (2)针对传统超矢量在说话人辨认系统中性能表现不够好的问题,本文提出了基于重组超矢量构建文本无关的GMM-SVM说话人辨认系统。重组超矢量充分利用各相邻高斯分量的均值矢量的高关联性,并且每个高斯分量的均值矢量携带足够的说话人个性信息。重组超矢量能充分反应说话人身份的内在细节,更使得系统可以充分利用 SVM处理高维小数据性能优越的特点。实验结果表明,重组超矢量的GMM-SVM说话人辨认系统与传统的基于GMM-SVM的说话人系统相比,有效的提高了说话人的辨别率,同时大幅度缩短了系统建模的时间。
  (3)针对传统特征参数不能挖掘语音信号深层次结构信息的问题,本文设计了一个深度神经网络来提取说话人语音的瓶颈特征,搭建基于DNN-SVM的说话人辨认系统。这种特征可以挖掘说话人的深度特性,具有不变性和高区分性的特点。实验结果表明,基于DNN-SVM的说话人辨认系统比基于SVM的说话人辨认系统的识别性能有了明显的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号