首页> 中文学位 >基于改进的BLFW下平行和非平行文本的语音转换算法研究
【6h】

基于改进的BLFW下平行和非平行文本的语音转换算法研究

代理获取

目录

声明

专用术语注释表

第一章 绪论

1.1引言

1.2语音转换的定义

1.3语音转换的研究背景和意义

1.4语音转换的国内外研究现状

1.5本文的主要工作和内容安排

第二章 语音转换基本理论

2.1引言

2.2语音信号产生的生理机制

2.3语音信号产生的数字模型

2.4语音转换系统框架

2.5语音信号处理

2.6语音信号分析合成模型

2.7语音转换关键技术

2.8语音质量评价标准

2.9本章小结

第三章 基于GMM和BLFW-AS的语音转换方法

3.1引言

3.2 Ahocoder语音分析合成模型

3.3高斯混合模型

3.4双线性频率弯折和幅度调节

3.5 本章小结

第四章 改进的平行文本下语音转换方法研究

4.1引言

4.2自适应高斯分类方法

4.3改进的BLFW-AS语音转换方法

4.4实验仿真

4.5本章小结

第五章 非平行文本下语音转换方法研究

5.1引言

5.2基于INCA的非平行转换方法

5.3基于AGMM-BLFW-AS的非平行文本语音转换

5.4实验仿真

5.5小结

第六章 总结与展望

6.1全文总结

6.2未来展望

参考文献

附录1 攻读硕士学位期间撰写的论文

附录2 攻读硕士学位期间申请的专利

附录3 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

在语音信号处理领域,语音转换是指将一个说话人(源说话人)的语音转换成听起来像另一个说话人(目标说话人)的所发出的语音,同时保持语义不变。语音中包含着丰富的信息,包括语义信息、个性信息、语言信息和情感信息等,而语音转换主要关注点在于语音的声学本质特征:频谱特性和韵律特征。在语音转换的多种应用场景中,如娱乐和跨语言转换应用中,需要语音转换系统能够提供高质量的语音和实现非平行文本下的语音转换。
  现有的语音转换系统面临着两个主要问题:一方面是转换后的语音不能同时获得较高的相似度和较好的音质效果,而不得不在转换后语音的相似度和音质上权衡,另一方面是转换函数的训练依赖于平行语料,限制了语音转换系统的通用性。
  首先为了实现较高音质和相似度转换的语音转换,本文提出基于自适应高斯分类的双线性频率弯折加幅度调节算法,它采用自适应高斯分类更好地对语音的声学特征分布建模,在实现合理分类的基础上进行语音转换。经过主观和客观评价,本文提出的方法比固定的分类数的双线性频率弯折加幅度调节算法转换后的语音的平均 MOS值提高了4.7%,平均 MCD值降低了2.7%,这说明本文提出的方法对语音转换系统的性能有一定的改进。
  其次,为了解决语音转换方法对平行语料的依赖,本文使用基于单元挑选和声道长度归一化的方法对非平行语料进行对齐,然后将基于自适应高斯分类的双线性频率弯折加幅度调节方法应用于非平行文本下的语音转换领域。经过主观和客观评价实验对比,证实这种方法比非平行文本下INCA方法的转换后的语音的平均MOS值提高了7.1%,平均MCD值降低了4.0%,表明转换后的语音音质更好,相似度更高。而与传统的平行文本下的高斯混合模型语音转换方法相比平均MCD值高了5.1%,平均MOS值低了3.9%,表明其转换性能仍有一定的差距,但是本方法是在非平行文本条件下开展的,具有更强的通用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号