基于SVM的文本无关的说话人辨认技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语音是人类最有效的交流方式，因为其独特性使其成为说话人识别技术的基本依据。在说话人识别基本框架下，寻找一种区分性强的说话人个性特征以获得更高的系统性能是当前说话人识别领域的研究热点。模型选择和特征提取是说话人识别技术中重点考虑的问题，在确定了模型选择的条件下，说话人识别系统性能的好坏就主要决定于选取何种类型的特征参数。当今数字化时代，寻找一种优越的说话人个性特征具有很好的理论研究意义和现实意义。
　　本文的研究目标是设计能够使说话人识别系统的识别性能提升或系统时间复杂度降低的语音特征。为此重点研究了GMM Supervector在说话人识别系统中的特性，并在此基础上提出了重组超矢量，结合支持向量机的特性分析重组超矢量的可行性；接着研究了近几年热门的深度学习，设计了一个深度神经网络来提取说话人语音的瓶颈特征。本文的主要工作和创新如下：
　　（1）本文介绍了说话人识别的基本框架，主要包括语音预处理方法、特征提取方法和说话人识别模型。详细介绍了LPC、MFCC及它们的倒谱特征的提取过程，并分析它们的特性。除此之外，还介绍了模板匹配算法、隐马尔科夫模型法、矢量量化法、高斯混合模型法、支持向量机法以及深度神经网络法这几种经典的说话人识别方法。通过前期的研究发现，后三种方法在说话人识别系统中表现相对更佳，所以本文对说话人识别的研究也是基于这三种方法上的。
　　（2）针对传统超矢量在说话人辨认系统中性能表现不够好的问题，本文提出了基于重组超矢量构建文本无关的GMM-SVM说话人辨认系统。重组超矢量充分利用各相邻高斯分量的均值矢量的高关联性，并且每个高斯分量的均值矢量携带足够的说话人个性信息。重组超矢量能充分反应说话人身份的内在细节，更使得系统可以充分利用 SVM处理高维小数据性能优越的特点。实验结果表明，重组超矢量的GMM-SVM说话人辨认系统与传统的基于GMM-SVM的说话人系统相比，有效的提高了说话人的辨别率，同时大幅度缩短了系统建模的时间。
　　（3）针对传统特征参数不能挖掘语音信号深层次结构信息的问题，本文设计了一个深度神经网络来提取说话人语音的瓶颈特征，搭建基于DNN-SVM的说话人辨认系统。这种特征可以挖掘说话人的深度特性，具有不变性和高区分性的特点。实验结果表明，基于DNN-SVM的说话人辨认系统比基于SVM的说话人辨认系统的识别性能有了明显的提高。

著录项

作者
欧国振;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科电子与通信工程
授予学位硕士
导师姓名孙林慧;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
说话人识别; 高斯混合模型; 重组超矢量; 支持向量机; 深度神经网络; 瓶颈特征;

相似文献

中文文献
外文文献
专利

1. 噪声补偿应用于与文本无关的说话人辨认研究 [J] . 邱洪 ,吴淑珍 . 北京大学学报：自然科学版 . 2005,第1期
2. 与文本无关的说话人辨认系统中一种新的使用基音周期方法研究 [J] . 段新 ,黄新宇 ,吴淑珍 . 北京大学学报：自然科学版 . 2003,第5期
3. 多特征组合多分类器的方法用于“文本无关”的说话人辨认(英文 ) [J] . 王岚 ,陈珂 ,迟惠生 . 北京大学学报：自然科学版 . 1998,第2期
4. 基于重组超矢量的GMM-SVM说话人辨认系统 [J] . 欧国振 ,孙林慧 ,薛海双 . 计算机技术与发展 . 2017,第007期
5. 基于SVM-GMM混合模型的说话人辨认研究 [J] . 崔宣 ,孙华 ,刘浏 . 西华大学学报（自然科学版） . 2010,第001期
6. 多层Ｋｏｈｏｎｅｎ网用于文本无关说话人辨认 [C] . 张贞子 . 中国神经网络１９９３年学术大会 . 1993
7. 基于高斯混合模型的与文本无关闭集说话人辨认研究 [A] . 王超 . 2005

基于SVM的文本无关的说话人辨认技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅