首页> 中文学位 >语音合成中韵律结构预测改进——深度学习在韵律预测模块中的应用研究
【6h】

语音合成中韵律结构预测改进——深度学习在韵律预测模块中的应用研究

代理获取

目录

声明

致谢

摘要

1 引言

1.1 研究背景和意义

1.2 国内外研究现状

1.3 研究问题及内容

1.4 论文组织结构

2 汉语韵律结构及其预测模型

2.1 汉语的韵律特征

2.2 汉语的韵律层级结构

2.2.1 词典词

2.2.2 韵律词

2.2.3 韵律短语

2.2.4 语调短语

2.3 韵律结构预测模型

2.3.1 二叉树模型

2.3.2 决策树模型

2.3.3 相似句模型

2.3.4 隐马尔科夫模型

2.3.5 最大熵模型

2.3.6 各模型比较

2.4 本章小结

3 词向量及深度神经网络

3.1.1 离散表达方式(One-Hot Representation)

3.1.2 分布式表达方式(Word Embedding/Word2Vec)

3.2 词向量使用(W6rd2Vec)

3.2.1 CBOW模型

3.2.2 Skip-Gram模型

3.3 深度神经网络

3.3.1 网络基本结构及原理

3.3.2 循环神经网络(RNN)

3.3.3 长短时记忆单元(LSTM)

3.4 基于深度学习的韵律结构预测模型设计

3.4.1 输入特征设计

3.4.2 神经网络模型设计

3.4.3 韵律结构预测模块设计

3.5 本章小结

4 深度学习在韵律结构预测中的应用

4.1.1 新闻语料库

4.1.2 韵律层级标注语料库

4.2 分词

4.2.1 分词工具安装

4.2.2 实现新闻语料分词

4.3 训练词向量

4.3.1 训练过程

4.3.2 训练步骤

4.3.3 训练结果

4.4 特征准备

4.4.1 CNTKTextFormatReader数据格式

4.4.2 网络输入特征

4.5 网络搭建

4.5.1 网络定义

4.5.2 网络训练

4.5.3 测试网络模型

4.6 实验结果对比分析

4.6.1 输入特征选择

4.6.2 输入特征维度选择

4.6.3 网络结构选择

4.6.4 网络模型改进

4.7 本章小结

5.1 总结

5.2 展望

参考文献

附录

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

韵律结构是影响语音合成中语音自然度的关键因素之一,对韵律结构预测的研究具有重要意义。传统的基于规则和基于统计的韵律预测模型建模方法在应用中取得了许多成功,但其在选取输入特征时多使用词性(Part-of-Speech,POS)等浅层信息,忽略了语义和语法等深层信息对韵律结构的影响。另外,当数据复杂性很大时,会出现适用范围窄、过拟合以及过于依赖规则等问题。针对传统方法中存在的局限性,需要一种对复杂数据建模能力很强的模型且模型的输入需表征深层信息。
  本文在韵律结构预测模块中引入深度学习,基于词向量作为模型输入特征的深度神经网络预测模型进行研究。论文的主要工作如下:
  (1)准备文本语料库训练词向量,使用训练得到的词向量替代传统的POS信息作为预测模型的输入,在模型的输入特征中加入词长信息和标点信息,从而增加输入特征中包含的信息,提高模型的学习效果;
  (2)采用全连接的前馈网络(FF)与双向长短时记忆单元(BLSTM)网络组合的网络结构对韵律预测模型建模,对比不同网络结构下韵律层级预测模型的预测结果,找到较好的预测模型网络结构;
  (3)为了进一步提高基于深度学习的韵律结构预测模型的预测效果,在网络模型之后,利用网络模型的输出打分和韵律结构类别之间的转移打分进行动态规划,找到网络模型输入语句对应的最优韵律层级类别序列。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号