首页> 中文学位 >长音频与文本的对齐研究
【6h】

长音频与文本的对齐研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引 言

S1.1 研究背景

S1.2 语音与文本匹配技术的研究现状和难点

S1.3 主要研究内容和组织结构

第二章 传统的语音文本对齐算法

S2.1 隐马尔可夫模型 HMM

S2.2 维特比对齐算法

第三章 自适应长音频文本对齐算法

S3.1 中文音频识别过程

S3.2 识别文本与参考文本的对齐过程

S3.3 迭代过程

S3.4 自适应语音文本对齐算法

S3.5 具体实施

第四章 实验结果和分析

S4.1 实验基本设置

S4.2 实验结果

S4.3 实验结果分析

第五章 总结与展望

S5.1 全文总结

S5.2 工作展望

参考文献

致谢

展开▼

摘要

长语音和文本的对齐可以促进对丰富的语音资源的大规模研究,例如,有声读物收集或者多媒体文档索引。对于这样的资源,基于传统的维特比强制对齐算法被证明是不足以胜任的,原因在维特比算法受限于:一是转写文本必须是准确的和二音频相对没有噪声。由于近几年中文语音识别率有显著提升,具备了用语音识别引擎解决语音文本对齐的条件。在本文中,我们用C++语言实现了一个具有鲁棒性的长音频文本对齐的程序,并能规避传统对齐方法中的一些限制。它实现了一个自适应、迭代性的语音识别和文本对齐的方式,而且能够处理时长很长的音频(可能包含噪声),并对噪声音频具有一定的鲁棒性。本文通过运行人为拼接的来自TIMIT数据库和863语音数据库的长音频,本文将给出相关的参考文本的边界结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号