首页> 中文学位 >基于语音反演机器学习方法的声道模型研究
【6h】

基于语音反演机器学习方法的声道模型研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景

1.2研究现状

1.3论文研究内容及结构

第二章 语音反演的机器学习方法概述

2.1深度结构的生成模型

2.2前馈人工神经网络

2.3自回归人工神经网络

2.4远端监督学习

2.5轨迹混合密度网络

2.6本章小结

第三章 声道模型中声道变量的研究

3.1声道变量定义

3.2关于非唯一性的统计分析

3.3仿真实验

3.4本章小结

第四章 不同语音反演机器学习方法对声道变量预测性能的比较

4.1定量测量方法

4.2实验数据

4.3实验过程和结果

4.4本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

附录1 攻读硕士学位期间撰写的论文

附录2 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

由于协同发音的影响,自动语音识别系统的性能会受到影响。已有的研究表明结合发音信息可以提高语音识别系统的性能,但是发音信息在话音环境中并不容易得到,因此语音反演被提了出来。语音反演是一种从语音信号中预测发音轨迹或者声道配置的方法。如果能够准确地预测发音信息,这些发音信息还能有助于语音合成、语言获取以及语音可视化等。
  论文首先提出使用声道变量作为发音信息(代替传统的球状轨迹)来模式化语音动态,并比较了声道变量和球状轨迹的预测性能和非唯一性。论文将语音分别参数化为梅尔倒谱系数,感知线性预测倒谱系数和线性预测倒谱系数,并使用混合密度网络来预测声道变量和球状轨迹。实验结果表明声道变量比球状轨迹能被更准确地预测。另外,论文使用基于模型的统计公式计算声道变量和球状轨迹的标准化的非唯一性,结果表明对于相同的六个辅音,声道变量的非唯一性比球状轨迹的非唯一性低。
  论文另一个研究内容为使用四种不同的语音反演的机器学习方法,即前馈人工神经网络、自回归人工神经网络、远端监督学习以及轨迹混合密度网络比较声道变量和球状轨迹,结果表明声道变量比球状轨迹有更好的性能,更适合基于发音器官特征的自动语音识别系统。另外论文分别将语音参数化为梅尔倒谱系数和声学参数,并比较了这四种方法对声道变量的预测性能,结果表明从整体来看三层隐层的前馈人工神经网络对声道变量的预测性能最好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号