首页> 中文学位 >基于深度学习和矢量量化的说话人识别研究
【6h】

基于深度学习和矢量量化的说话人识别研究

代理获取

目录

第一个书签之前

第一章 绪论

第二章 说话人识别基本理论

2.2.1说话人识别概念

2.2.2 说话人识别分类

2.3.1 语音信号预处理

2.3.2 语音特征提取

2.3.3 说话人识别模型

第三章 深度学习基本理论

3.1.1 深度学习的特点

3.1.2 深度学习在说话人识别的优势

3.3.1 人工神经元模型

3.3.2 RBM模型

3.3.3 深度置信网络

第四章 基于Bottleneck-VQ的说话人识别系统

4.2.1 Bottleneck 特征介绍

4.2.2 Bottleneck 特征提取

4.3.1 基于Bottleneck-VQ的说话人识别系统实现

4.3.2 实验仿真和结果分析

第五章 基于Auto-Encoder DBN-VQ的说话人识别系统

第六章 总结与展望

参考文献

附录1 攻读硕士学位期间撰写的论文

附录3 攻读学位期间参加的科研项目

致谢

展开▼

摘要

说话人识别是用来进行身份确认的一种认证技术,通常也被称为声纹识别。它通过不同说话人语音中的个性特征来识别说话人身份,具有操作方便,设备成本低等优势,并被应用于证券银行、军事国防以及公安司法等领域。深度学习是近年来发展比较迅速的一种深层机器学习模型,其本质上是多层非线性的神经网络,可以对复杂的数据关系进行建模。本文将深度学习应用在说话人识别中,优化说话人语音个性特征,提高系统性能,主要工作如下: 1.介绍了深度学习基本理论并总结了该网络在说话人识别中优势和应用 深度神经网络是具有多个隐层的复杂网络模型,本文阐述了深度置信网络的基本原理,并与其他模型进行了对比,进一步分析了深度神经网络在说话人识别中的优势,总结了国内外研究者对深度置信网络的研究和应用。 2.研究了基于Bottleneck-VQ的说话人识别方法 说话人语音时长有限会导致模型学习不充分,进而影响系统的识别率。深度置信网络可以更好地在有限的语音中捕捉到说话人的个性特征。本文通过深度置信网络提取Bottleneck特征,然后结合矢量量化方法,构成基于Bottleneck-VQ的说话人识别系统。通过仿真实验,表明在说话人语音时长不超过10s的短时条件下,基于Bottleneck-VQ模型识别率比传统VQ有10%的提升。 3.研究了基于Auto-Encoder DBN-VQ的说话人识别方法 噪声环境下的语音对说话人识别系统性能影响非常大,本文采用深度置信网络构造深度自动编码置信网络,可以对说话人语音中的噪声进行有效过滤,然后结合VQ构成基于Auto-Encoder DBN-VQ的说话人识别系统。实验结果证明,基于Auto-Encoder DBN-VQ的说话人识别系统比VQ以及GMM等系统在噪声条件下识别率平均提升15%。

著录项

  • 作者

    刘俊坤;

  • 作者单位

    南京邮电大学;

  • 授予单位 南京邮电大学;
  • 学科 电子与通信工程
  • 授予学位 硕士
  • 导师姓名 李燕萍;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    深度学习; 矢量量化;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号