首页> 中文学位 >无需脚本的动态字幕生成中的关键技术研究
【6h】

无需脚本的动态字幕生成中的关键技术研究

代理获取

目录

声明

致谢

摘要

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 系统概述

1.4 论文的创新点及章节安排

1.4.1 本文的研究创新点

1.4.2 本文章节内容安排

第二章 相关理论

2.1 自动语音识别

2.1.1 动态时间规整算法

2.1.2 隐马尔可夫模型

2.2 人脸检测与唇动分析

2.2.1 人脸检测

2.2.2 唇动分析

2.3 本章小结

第三章 说话人分割聚类技术

3.1 引言

3.1.1 说话人分割聚类系统概述

3.1.2 本章内容安排

3.2 参数提取与话者建模

3.2.1 语音参数的提取

3.2.2 话者模型的建立

3.3 距离测度的选择与聚类停止准则

3.3.1 距离测度

3.3.2 贝叶斯判据简介

3.4 说话人分割

3.4.1 本章选用的算法

3.4.2 实验及分析

3.5 说话人聚类

3.5.1 本章选用的算法

3.5.2 实验及分析

3.6 分割聚类系统的实验及分析

3.6.1 系统的评价指标

3.6.2 实验及分析

3.7 本章小结

第四章 人脸与字幕的匹配

4.1 语音序列与图像序列的预处理

4.2 “只有一个人说话”时的人脸与语音的匹配

4.3 特殊情况下的人脸与语音的匹配

4.4 语音盲源分离技术

4.4.1 ICA

4.4.2 FastICA

4.4.3 本文使用的方案

4.4.4 实验及分析

4.5 本章小结

第五章 总结与展望

5.1 本文的工作总结

5.2 研究展望

参考文献

攻读硕士学位期间的学术活动及成果情况

展开▼

摘要

全球超过六千六百万的人遭受听觉受损的折磨,这一缺陷严重影响了他们对视频内容的理解。字幕标注技术在一定程度上能够帮助他们在观看影视作品时,同步理解画面内容、人物身份、对白语意等。然而现存的大多数字幕标注技术远远不能满足听觉障碍者理解与欣赏视频的需求。本文介绍一种无需脚本的动态字幕生成技术,其中包含说话人分割与聚类、语音盲源分离、自动语音识别、人脸检测等关键技术。
  本文描述的动态字幕生成方法,是将生成的字幕动态地显示在说话人人脸附近,与传统的静态字幕标注技术相比,并非简单地放置于特定的位置,如屏幕底部等区域。听觉障碍者能够较为迅速地分辨出说话人的身份信息,并获取有益于理解故事情节的语言台词,无需在画面与对白之间不断切换而导致注意力的分散,从而更好地欣赏视频作品。
  本系统侧重脚本无关,拟在采用声音及视觉技术,将声音信息通过自动语音识别直接转化为文本信息,与已有的动态字幕标注技术相比,不再依赖字幕-脚本文件,从而可以广泛使用。
  无需脚本的动态字幕生成技术主要包含三大模块:1、人脸与字幕的匹配;2、字幕标注的放置;3、设计界面与校正错误。本文着重介绍第一模块,它是后续工作的基础,也是整个系统的核心,其正确率影响系统的可行性,同时直接影响第三模块中人工校正错误的工作量。在该模块中,通过说话人分割与聚类系统实验的改进、语音盲源分离方法的优化,从理论上阐明人脸与对应语音成功匹配的可行性,再通过较为成熟的语音识别技术,得到人脸与字幕的对应关系。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号