第 1 章 绪 论
1.1 课题来源及研究的背景和意义
1.1.1 课题来源
1.1.2 研究的背景和意义
1.2 国内外研究现状及分析
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 目前方法存在的问题
1.4 论文主要研究内容
1.5 论文组织结构
第 2 章 基于 RNN-T 的端到端语音识别模型
2.1 引言
2.2 预处理阶段
2.2.1 预加重和去加重
2.2.2 分帧与加窗
2.2.3 端点检测
2.3 特征提取阶段
2.4 RNN-T 模型
2.4.1 模型概览
2.4.2 输入输出对齐
2.4.3 优化准则
2.4.4 解码
2.4.5 RNN-T 模型总结
2.5 网络结构及训练策略
2.5.1 网络结构
2.5.2 数据处理
2.5.3 预训练
2.5.4 训练学习率和正则约束
2.6 基线实验系统
2.6.1 语料库
2.6.2 实验设置及评价指标
2.6.3 基线系统结果分析
2.7本章小结
第 3 章 基于生成对抗网络的训练数据扩充方法
3.1 引言
3.2 RNN-T 的局限性分析及扩充方法
3.2.1 RNN-T 模型的局限性分析
3.2.2 训练数据扩充方法的可行性分析
3.3 基于生成对抗网络的训练数据扩充方法
3.3.1 选择生成对抗网络的原因
3.3.2 基于生成对抗网络的扩充架构
3.3.3 损失函数
3.3.4 训练步骤
3.4 本章小结
第 4 章 生成对抗网络与连接时序分类结合的训练算法
4.1 引言
4.2 生成对抗网络与连接时序分类结合的训练算法
4.2.1 选择多任务学习的原因
4.2.2 辅助任务的选取及损失函数
4.2.3 高效的多任务网络结构
4.3 基于文本数据的训练数据扩充方法
4.4 实验与讨论
4.4.1 实验设置
4.4.2 实验与讨论
4.5 本章小结
结 论
参考文献
声明
致 谢
哈尔滨工业大学;