首页> 中文学位 >基于HMM的自动唱词定位系统的设计与实现
【6h】

基于HMM的自动唱词定位系统的设计与实现

代理获取

目录

文摘

英文文摘

第一章 引言

1.1 研究背景

1.2 语音识别技术的历史与研究现状

1.3 论文内容和意义

1.4 论文的总体结构

第二章 语音处理的基本理论

2.1 语音信号的表示

2.1.1 语音信号的时域波形

2.1.2 语音信号的频域波形

2.2 语音信号处理

2.3 语音信号特征参数提取

2.3.1 语音信号的时域分析

2.3.2 语音信号频域分析

2.3.3 动态参数

第三章 隐马尔科夫模型及其在语音识别中的应用

3.1 HMM的定义

3.2 HMM的基本算法

3.2.1 前向—后向算法

3.2.2 Viterbi算法

3.2.3 Baum—Welch算法

3.3 HMM模型在语音识别系统中的应用

3.3.1 语音识别系统结构

3.3.2 语音识别的分类

3.3.3 HMM在孤立词识别中的应用

3.3.4 HMM在连续词识别中的应用

第四章 基于HMM的自动唱词定位技术研究

4.1 特征参数选取

4.2 声学模型的选择

4.3 单音素HMM模型的建立与训练

4.3.1 训练数据的准备

4.3.2 单音素模型参数初始化

4.3.3 单音素模型的训练

4.4 语句段HMM模型的建立与识别

4.4.1 令牌传递模型

第五章 原型系统的设计与实现

5.1 系统概述

5.2 用户界面模块的设计与实现

5.3 音频参数提取模块的设计与实现

5.3.1 wav文件读取子模块的设计与实现

5.3.2 MFCC参数提取子模块的设计与实现

5.4 唱词音节转换模块的设计与实现

5.5 音频唱词对齐模块的设计与实现

5.6 字幕生成模块的设计与实现

5.7 字幕播放模块的设计与实现

第六章 自动字幕生成系统应用效果展示

6.1 系统界面

6.1.1 系统输入

6.1.2 系统按钮

6.2 生成字幕文件

6.3 视频播放及字幕加载

6.4 自动唱词定位及字幕生成的效率

第七章 总结与展望

7.1 全文总结

7.2 未来工作展望

致 谢

参考文献

攻读硕士学位期间发表的学术论文

展开▼

摘要

字幕唱词信息帮助观众对音视频内容进行理解,在音视频文件中有着非常重要的作用。本文针对唱词定位系统的要求和特点,采用基于隐马尔可夫模型(HMM)的训练算法,实现了可以在复杂背景噪声的情况下,从连续的音频信号中提取语音端点,并结合唱词进行精确定位最后生成字幕的自动系统。
   本文简要介绍了HMM在语音处理中的应用,并针对大词汇量,非特定人的汉语连续语音模型训练的特点,研究了系统中声学模型的构造和音频参数的选择,采用39维的MFCC参数和对音素建模进行汉语语音HMM模型的训练.在此基础上,利用唱词文件提供的字幕文本信息,将音素HMM模型前后级联成语句HMM模型,并采用令牌传递算法对音频句子进行分割,实现唱词与音频的对齐功能。最后实现了自动生成字幕的唱词精确定位系统,进一步验证了本文提出技术的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号