首页> 中文学位 >网络视频字幕提取识别系统的设计与实现
【6h】

网络视频字幕提取识别系统的设计与实现

代理获取

目录

声明

致谢

摘要

1 引言

1.1 项目背景

1.2 国内外发展现状研究

1.3 论文的主要工作

1.4 论文的组织结构

2 视频字幕的提取

2.1 视频字幕提取方法介绍

2.2 字幕定位算法

2.2.1 查找边缘

2.2.2 笔画宽度变换

2.2.3 查找字符候选

2.2.4 字符组合

2.2.5 结果分析

2.3 字幕追踪

2.4 本章小结

3 视频字幕的增强与二值化

3.1 字幕增强与二值化方法介绍

3.2 多帧融合增强

3.3 字幕区域的二值化

3.4 字幕区域的降噪

3.5 本章小结

4 字幕文字识别

4.1 文字识别方法介绍

4.2 文字识别流程设计

4.3 行字切割

4.3.1 行切割

4.3.2 字切割

4.4 归一化

4.5 文字细化

4.6 文字特征匹配

4.6.1 粗分类

4.6.2 细分类

4.6.3 精确匹配

4.6.4 相似字识别

4.6.5 匹配结果

4.7 系统集成与实验

4.7.1 系统集成

4.7.2 实验结果分析

4.8 本章小结

5 总结与展望

5.1 全文总结

5.2 不足与展望

参考文献

作者简历

学位论文数据集

展开▼

摘要

随着互联网服务和网络基础设施的飞速发展,网络视频服务越来越便利,网络上的视频内容越来越丰富,对这些视频进行监控和检索变的更加必要。在传统的基于标题和标签的方法并不能准确的反映视频内容的情况下,理解视频内容成为了更好的选择。其中视频字幕与视频语义有着较强的相关性,获取视频字幕能够对视频内容进行更加深入的检索与监控。
  视频字幕指视频中出现的人工添加的文字信息,这些文字通常包含了视频中的人物对话,内容总结等重要内容,能够准确的反映视频的含义。但是,网络视频中的分辨率通常较低,字幕文本都嵌入在杂乱的背景中,无法直接进行OCR识别。
  为解决这一问题,作者独立设计并实现了网络视频的字幕提取与识别系统,利用计算机图像处理的知识,将嵌入视频的字幕提取并转化成文本格式。系统主要包含字幕的定位与追踪、字幕的增强与二值化、文字识别三个模块。
  字幕的提取模块将提取过程分解为定位与追踪两个步骤。其中定位步骤用以确定字幕在视频中首次出现,系统利用文本独特的几何特征,采用了基于笔画宽度变换的文本检测方法确定字幕在图像帧中的位置。追踪过程则通过对比两帧字幕区域图像的相似度,跟踪字幕在视频中的停留与消失,追踪的过程有效的减少了字幕定位的次数,并提高了字幕提取的精确度。
  字幕的增强与二值化模块充分利用了字幕在时间上的冗余性,将追踪后得到的字幕图像进行多帧融合,以达到增强文本,弱化背景的目的。然后系统利用Otsu算法对融合后得到图像进行二值化,将文字从背景中提取出来,得到可以通过OCR技术识别的二值化图像。
  文字识别模块设计并实现了汉字的识别功能,系统提取了汉字的多种特征,并将这些特征综合利用,融合各个特征的特点,设计并实现了一个多级的分类系统用以汉字识别。经过验证,文字识别模块取得了较好的效果。
  最终经过实验验证,系统能够较为准确的将视频中的字幕提取并转化为文本文件,并达到了令人满意的识别率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号