首页> 中国专利> 基于模板匹配及曲线拟合的视频字幕细化方法

基于模板匹配及曲线拟合的视频字幕细化方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于模板匹配及曲线拟合的视频字幕细化方法，涉及多媒体信息处理领域。本发明结合汉字的结构特征，对汉字笔划进行提取与重绘,从而达到汉字细化的效果，解决了其他细化算法在对该类对象进行细化时产生的笔划扭曲、丢失及识别率低的问题。本发明技术要点包括：获取视频字幕中汉字图像；确定汉字图像的连通区域；提出模板匹配法提取同一连通区域内汉字笔划；提出用水平、竖直线段重绘 “横”、“竖”笔划，二次Bezier曲线重绘“撇”、“捺”笔划，斜线段重绘“点”笔划的方法，从而实现汉字图像的细化效果。本发明保持了汉字的形状及笔划结构，避免了扭曲现象；保证了笔划的横平竖直及撇捺的弯曲度，更好地重绘出汉字的形态；提高了视频字幕的识别效果。

著录项

公开/公告号CN104021385A

专利类型发明专利
公开/公告日2014-09-03

原文格式PDF
申请/专利权人北京信息科技大学;
展开▼

申请/专利号CN201310066629.1
发明设计人吕学强;李钦瑞;
展开▼

申请日2013-03-02
分类号G06K9/20;
代理机构
代理人
地址 100192 北京市海淀区清河小营东路12号北京信息科技大学
入库时间 2023-12-17 01:34:31

法律信息

法律状态公告日

法律状态信息

法律状态
2023-02-28

未缴年费专利权终止 IPC(主分类):G06K 9/20 专利号:ZL2013100666291 申请日:20130302 授权公告日:20171121

专利权的终止
2017-11-21

授权

授权
2014-10-08

实质审查的生效 IPC(主分类):G06K9/20 申请日:20130302

实质审查的生效
2014-09-03

公开

公开

说明书

技术领域

本发明属于多媒体信息处理领域，具体地说，是涉及一种基于视频字幕的汉字图像细化方法。

背景技术

视频字幕中包含的丰富语义知识，为多媒体检索提供了重要的信息。因此，如何自动、有效地检测、分割、识别视频字幕，成为学术界、企业界、政界监管部门所面临的一大挑战。近年来，在视频字幕检测、分割方面存在较多有效方法，但对于低像素的视频字幕识别仍然是个研究难题。

目前，对于中文字符的识别已存在成熟的OCR识别技术。但该技术仅对具有高分辨率的扫描字体可达到较高识别准确率，而对于低分辨率的视频字幕，由于其笔划粗细不均匀，二值化后像素丢失等问题导致识别结果不是很理想。因此，需要通过对输入OCR的字幕图像进行细化处理，来提高最终的识别效果。目前，经典的图像细化算法在用于汉字图像时，会使汉字笔划发生扭曲、歪斜、丢失等现象，导致无法有效地识别。而其他针对汉字图像的细化方法，如基于字符骨架的汉字细化算法、基于数学形态学细化算法、基于图形集合运算方法等，同样仅适用于清晰汉字图像，对于视频字幕这种低分辨率的汉字图像，不具有很强的适用性。

通过对汉字国标（GB2312-80）一级、二级字库的6763个汉字的统计与分析发现，标准汉字字体主要由 “横”、“竖”、“撇”、“捺” 四种基本笔划组成，其他笔划可视为复合笔划。

为此，依据汉字的结构特征，本发明提出了一种基于模板匹配及曲线拟合的视频字幕细化方法，通过设计模板提取汉字笔划，设计不同的拟合方式对“横”、“竖”、“撇”、“捺”四种基本笔划进行重绘，为低分辨率中文视频字幕的细化及视频字幕识别提供了一种有效的途经。

发明内容

本发明的目的是提出一种针对视频中文字幕的有效细化方法，结合汉字的结构特征，对汉字笔划进行提取与重绘，达到汉字细化的效果，解决其他细化算法对该类对象进行细化时产生的笔划扭曲、丢失等问题。

本发明提供的一种基于模板匹配及曲线拟合的视频字幕细化方法，其包括步骤：

步骤A,视频字幕中汉字图像的获取；

视频字幕存在于组成视频的各个帧中，因此本发明采用FFMPEG工具对输入的视频（A01）进行解码抽帧（A02），并使用不等权策略将每一帧转换为8位灰度图；删除视频中空字幕帧，并对重复字幕的帧进行去重，提取有效帧（A03）；从有效帧中提取字幕区域，并对字幕区进行二值化，设置背景色为白色，前景色即汉字颜色为黑色（A04）；对字幕区进行扫描分割获取各个汉字图像（A05）。

步骤B,确定汉字图像的连通区域；

连通区域由前景像素构成，可定义如下：两个前景像素P、Q是连通的当且仅当存在一条路径P₁P₂…P_i…P_n，使得P₁=P，P_n=Q，1≤i≤n-1，有P_i与P_i+1相邻。

采用八连通域法确定汉字图像的连通区域，获取属于同一个连通域的像素点，并计算连通域个数。

步骤C,模板匹配法提取同一连通区域内汉字笔划；

本发明将同一连通区域内汉字笔划划分为简单笔划及复杂笔划。所谓简单笔划是指在一个连通域中仅有一个“横”、“竖”或“点”笔划，如“问”中的“竖”、“点”属于简单笔划；复杂笔划是指在一个连通域中包含多种笔划的连接或包含“撇”、“捺”笔划，如“直” 仅有一个连通域，且该连通域内笔划属于复杂笔划。

为提高汉字笔划提取效率，本发明根据连通区域形状特征，判别汉字笔划是简单笔划还是复杂笔划，并分类处理两类笔划。

以汉字图像的左上角为坐标原点，向右、向下方向分别为X轴、Y轴的正方向建立直角坐标系。对任一连通域，获取区域内像素点个数num， x轴方向上的最小值minx、最大值maxx，y轴方向上的最小值miny、最大值maxy。

判别简单笔划。当式子

$(\begin{matrix} \max x - \min x + 1 > bre 1 \\ \max y - \min y + 1 < bre 2 \end{matrix})$

成立时，视该连通域为简单笔划中“横”笔划，其中bre1为单独“横 ”笔划的长度阈值，bre2为单独“横”笔划的宽度阈值。简单笔划中“竖”、“点”笔划的判断同理。

对于不在以上情况的像素点集，视为复杂笔划，包括“撇”、“捺” 及多种笔划交叉情况。这些笔划无法通过区域的边界特征进行提取，因此，提出模板匹配算法提取复杂笔划中的“横”、“竖”、“撇” 、“捺”笔划。

模板匹配算法：采用长度分别为l₁、l₂、l₃、l₄个像素的横线段、竖线段、斜率为1的斜线段、斜率为-1的斜线段做模板；应用四种模板分别对连通域内像素点进行扫描匹配。具体匹配方法如下：

C01“横”笔划的提取；

采用长度为l₁个像素的横线段做模板，对连通域内像素点进行逐行扫描标记。即当点(x₀,y₀)与点(x₀+l₁-1,y₀)及其中间像素点均为黑点时，对点(x₀,y₀)到点(x₀+l₁-1,y₀)之间的所有像素点作标记，并将模板向右移动一个像素，如此迭代，直到扫描完成。在完成全部扫描后，做标记的点可形成一幅新的图像。对该图像采用四连通域法，即两点之间仅互为上下或左右关系，进行连通域扫描，得到的每个连通域即为一个“横”笔划。

C02“竖”笔划的提取；

与提取“横”笔划类似，以长度为l₂个像素的竖线段做模板，对连通域内像素点进行逐列扫描标记。即当点(x₀,y₀)与点(x₀,y₀+l₂-1)及中间像素点均为黑点时，对点(x₀,y₀)到点(x₀,y₀+l₂-1)之间的所有像素点作标记，并将模板向下移动一个像素，如此迭代，直到扫描完成。在完成全部扫描后，对由标记的点形成的新图像，采用四连通域法进行连通域扫描，得到的每一个连通域即为一个“竖”笔划。

C03“撇”笔划的提取；

采用长度为l₃个像素、斜率为1的斜线段做模板，对连通域内像素点以模板方向进行扫描标记，即当点(x₀,y₀)和点(x₀-l₃+1,y₀+l₃-1)及中间点均为黑点时，对点(x₀,y₀)到点(x₀-l₃+1,y₀+l₃-1)之间的所有像素点作标记，并将模板向右移动一个像素，如此迭代，直到扫描完成。在完成全部扫描后，标记的点将形成新的图像。由于采用斜率为1的线段作为模板，而实际汉字中的 “撇”笔划并不是一条直线段，因此可以通过适当调整l₃的取值后，采用八连通域法进行连通域扫描，得到的每一个连通域即为一个“撇 ”笔划。

C04“捺”笔划的提取；

与提取“撇”笔划类似，采用长度为l₄个像素、斜率为-1的斜线段做模板，对连通域内像素点以模板的方向进行迭代扫描，即当点(x₀,y₀)和点(x₀-l₄-1,y₀+l₄-1)及中间像素点均为黑点时，从点(x₀,y₀)到点 (x₀-l₄-1,y₀+l₄-1)之间的所有像素点作标记，并将模板向右移动一个像素，如此迭代，直到扫描完成。在完成全部扫描后，对由标记的点形成的新图像，采用八连通域法进行连通域扫描，得到的每一个连通域即为一个“捺”笔划。

步骤D,曲线拟合法重绘汉字笔划。

本发明通过对提取的汉字笔划进行重绘来实现汉字的细化操作。分别用宽度为1个像素的水平、竖直线段对提取的“横”、“竖”笔划进行重绘；用宽度为1个像素的二次Bezier曲线对提取的“撇”、“捺”笔划进行重绘；用宽度为1个像素的斜线段对提取的“点”笔划进行重绘。具体重绘方法如下：

D01“横”笔划的重绘；

对提取的“横”笔划，若其像素点在坐标系中的纵坐标从y₁变化到y₁ (y₁＜y₂)，横坐标从x₁变化到x₂ (x₁＜x₂)，则细化“横”笔划的纵坐标为，横坐标从x₁+bre到x₂-bre依次递增。为避免笔划连接地方在细化后出现毛刺，将bre设为汉字笔划的平均像素宽度的一半。

在对“横”进行重绘的过程中，要考虑到如“欠”这类含有“横勾” 的情况。在横笔划的末端点处进行向下、左下方向的连续扫描，当扫描得到长度l满足bre＜l＜l₃时，视为存在“横勾”笔划，并用斜线段对“勾”笔划进行重绘。

D02“竖”笔划的重绘；

同 “横”笔划的重绘相似，细化“竖”笔划的横坐标为，纵坐标从 y₁+bre到y₂-bre依次递增。

在对“竖”进行重绘的过程中，与处理“横勾”类似的方法，处理如 “小”、“银”这类的含有“竖勾”、“竖提”的情况。

D03“撇”笔划的重绘；

对提取的“撇”笔划，若其左下点的坐标为P₀(x₁,y₁)，右上点的坐标为P₂(x₂,y₂)，点P (x₂,y₁)是使三角形P₀PP₂为直角三角形的一个顶点，且该点在线段P₀P₂下方，则RtΔP₀PP₂的内心坐标为，其中，

$a = | {PP}_{2} | = | y_{2} - y_{1} |$

$b = | P P_{0} | = | x_{2} - x_{1} |$

$c = | P_{0} P_{2} | = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2}}$

将P₀、P₁、P₂带入二次Bezier曲线公式：

$B (t) = {(1 - t)}^{2} P_{0} + 2 t (1 - t) P_{1} + t^{2} P_{2}, t \in [0,1]$

方程B(t)随时间t变化的轨迹，即为对“撇”笔划的拟合曲线。采用该拟合曲线对“撇”笔划进行重绘。

D04“捺”笔划的重绘；

与“撇”笔划的重绘过程相似，若连通域中左上点的坐标为P₀(x₁,y₁)，右下点的坐标为P₂(x₂,y₂)，点P (x₂,y₁)是使三角形P₀PP₂为直角三角形的一个顶点，且该点在线段P₀P₂下方，则RtΔP₀PP₂的内心坐标为，其中，

$a = | {PP}_{2} | = | y_{2} - y_{1} |$

$b = | P P_{0} | = | x_{2} - x_{1} |$

$c = | P_{0} P_{2} | = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2}}$

将P₀、P₁、P₂带入二次Bezier曲线公式：

$B (t) = {(1 - t)}^{2} P_{0} + 2 t (1 - t) P_{1} + t^{2} P_{2}, t \in [0,1]$

方程B(t)随时间t变化的轨迹，即为对“捺”笔划的拟合曲线。采用该拟合曲线对“捺”笔划进行重绘。

D05“点”笔划的重绘；

若“点”笔划的两端点分别为P₁(x₁,y₁)、P₂(x₂,y₂)，该线段斜率为：

$k = \frac{y_{2} - y_{1}}{x_{2} - x_{1}}$

当-1＜k＜0时，“点”笔划趋于更坡的方向。为了使绘制的线段不间断，此时使用x表示y的函数进行重绘“点”笔划，如下：

$y = k \times (x - x_{1}) + y_{1}$

当k＜-1时，“点”笔划趋于更陡的方向。为了使绘制的线段不间断，此时使用y表示x的函数进行重绘“点”笔划，如下：

$x = (y - y_{1}) / k + x_{1}$

本发明的有益效果是：将汉字图像按连通域结构划分为简单笔划及复杂笔划，并仅对复杂笔划采用模板匹配方法进行笔划提取，实现高效率地笔划提取；根据汉字的结构特征，采用曲线拟合方法对提取的笔划进行重绘，从而实现字幕的细化操作，其细化后效果保持了汉字的形状及笔划结构，避免了扭曲现象；保证了笔划的横平竖直及撇捺的弯曲度，更好地重绘出汉字的形态；优化了视频字幕的识别效果。

附图说明

图1为本发明提供的基于模板匹配及曲线拟合的视频字幕细化方法的流程图；

图2为中文视频字幕图像的获取过程。

具体实施方式

下面结合附图和实施例，对本发明提供的一种基于模板匹配及曲线拟合的视频字幕提取方法作详细地说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

A汉字图像的获取。

用含中文字幕的电视剧作为输入。由于中国的电视播放每秒25帧，为避免字幕重复帧过多，在用FFMPEG对视频进行解帧后，每隔30帧做一次帧保存操作，提取1000帧。在帧的输出过程中，将帧保存为BMP格式并利用下面不等权策略的公式：

$L (x, y) = 0.3 \times R (x, y) + 0.59 \times G (x, y) + 0.11 \times B (x, y)$

将图像转换为8位灰度图。公式中L(x,y)为像素点(x,y)的灰度值，R( x,y)、G(x,y)、B(x,y)分别为该点的红、绿、蓝分量。

根据视频字幕的特征，判断提取出的视频帧是否包含字幕区并过滤掉无字幕帧。再通过对相邻帧进行比较，对含相同字幕的帧进行去重。经过对提取帧的两步筛选，剩余有效字幕帧共469帧，包含3568个汉字。

对提取的有效帧，根据字幕区含有丰富的边缘特征这一特点，确定出字幕区域的上、下、左、右边界，从而提取视频字幕区。对字幕区进行二值化，并将背景色置白色，前景色即汉字颜色置黑色。由于二值化时，所选阈值的大小，将决定细化前汉字的初始状态，并将影响细化效果。二值化阈值越大，得到的汉字笔划越细，锯齿现象越严重；所选阈值越小，得到的汉字笔划越容易出现粘连现象。因此，分别采用90、110、130的阈值大小对汉字图像进行二值化操作并对细化效果进行对比。

B确定汉字图像的连通区域。

采用八连通域法确定汉字图像的连通区域。将要遍历的汉字图像存到数组M[h][w]中。其中，h是汉字图像的高度，w是汉字图像的宽度。设定与数组M维数相同的数组Visted，元素取值如下：

扫描数组M，当M[i][j]为黑点且对应的Visited[i][j]=0时，标记该点并设置Visited[i][j]=1。以M[i][j]为出发点，对该点的周围八个方向按条件进行深度递归扫描，且将扫描到的点全部加以相同的标记，直到扫描不到符合要求的点，一个连通域的扫描结束。使用同样的方法，扫描其他的连通域。

C模板匹配法提取同一连通区域内汉字笔划。

根据连通区域内像素点个数num，x轴方向上的最小值minx、最大值ma xx，y轴方向上的最小值miny、最大值maxy所满足的关系，判定该连通区域是否表示简单笔划。

当式子

$(\begin{matrix} \max x - \min x + 1 > bre 1 \\ \max y - \min y + 1 < bre 2 \end{matrix})$

对于复杂笔划采用模板匹配算法进行扫描匹配，即使用长度分别为l₁、l₂、l₃、l₄个像素大小，以X轴正方向为基准，角度为0°，45°， 90°，135°的线段做模板，匹配连通域内的“横”、“竖”、“撇” 、“捺”笔划。

用每种笔划所对应的模板在同一连通域内进行扫描，以扫描“横”笔划为例。设定与汉字图形大小相等的矩阵M_h×w，其中h是汉字图像的高度，w是汉字图像的宽度。将矩阵M进行初始化，并对汉字图像进行行扫描。若从点(x₀,y₀)和点(x₀+l₁-1,y₀)之间（包括两端点）均为黑点，则将M矩阵从相应的点(x₀,y₀)到点(x₀+l₁-1,y₀)作黑点标记。将x₀向前移动一步，继续执行相同的过程，每行匹配结束后执行下一行。在对汉字图像进行一次扫描结束后，矩阵M已经将该汉字中的所有“横” 做出了标记。每一个连通区域就为一个“横”。其他笔划的扫描过程与“横”笔划的扫描过程类似。

D曲线拟合法重绘汉字笔划。

对提取的“横”、“竖”笔划分别用水平、竖直线段进行重绘。以“ 横”笔划为例，获取“横”笔划所对应的连通区域的上、下、左、右边界，通过上、下边界确定“横”笔划所在的水平位置，左、右边界确定“横”笔划的左、右端点，用水平线段进行重绘。“竖”笔划的重绘方法类似。

对提取的“撇”、“捺”笔划，采用二次Bezier曲线进行重绘。以“ 撇”笔划为例，获取“撇”笔划的两个端点坐标，即连通域中最左下点的坐标P₀(x₁,y₁)及最右上点的坐标P₂(x₂,y₂)，点P (x₂,y₁)为使三角形P₀PP₂为直角三角形的一个顶点，则RTΔP₀PP₂的内心坐标为，则拟合“撇”笔划的曲线为由P₀、P₁、P₂所形成的二次Bezier曲线。用该曲线对“撇”笔划进行重绘。“捺”笔划采用类似方法进行重绘。

对提取的“点”笔划，采用斜线段进行重绘。为了使绘制的线段不间断，根据“点”笔划的倾斜度不同，选择不同的拟合函数。

当-1＜k＜0时，使用x表示y的函数进行重绘“点”笔划，如下：

$y = k \times (x - x_{1}) + y_{1}$

当k＜-1时，使用y表示x的函数进行重绘“点”笔划，如下：

$x = (y - y_{1}) / k + x_{1}$

其中，k为“点”笔划的两端点连接线段的斜率。

为了检测本发明提供的基于模板匹配及曲线拟合的视频字幕细化方法的有效性，对提取的3568个汉字图像的细化结果进行OCR识别操作，并与经典的数学形态学图像细化算法细化的结果进行识别对比。考虑到经典的数学形态学图像细化算法具有较高的鲁棒性，且对细化对象没有特殊要求，对该类视频字幕可以达到较好的细化效果。而其他细化算法对细化对象的选择具有一定的局限性，对该类视频字幕的细化不具有较强的适应性。因此，用数学形态学图像细化算法及本发明的方法分别进行细化操作并做比较。选用OCR识别的第一候选字作为识别结果，统计两种方法在不同阈值下的识别正确数及正确率，结果如表1所示。

表1

从表1中可以看出，由于汉王OCR识别器对该类视频字幕的识别效果较弱，整体识别正确率较低。若从识别的前10个候选字中进行统计，本发明的细化算法对阈值为110的正确率可达82.65%。但是，从两种细化方法的比较上来看，本发明的细化结果是有效的，并且可以更好地被识别。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于模板匹配及曲线拟合的视频字幕细化方法 [P] . 中国专利： CN104021385B . 2017.11.21
2. 基于模板匹配及曲线拟合的视频字幕细化方法 [P] . 中国专利： CN104021385A . 2014-09-03
3. The storage media present information to utilizau00c7u00e7o with a device of gravau00c7u00e7o / reproduu00c7u00e7o, method of reproduu00c7u00e7o subtitle data in text format, and the data of audio / video (AV), a device for data reproduu00c7u00e7o audio / video (AV) and subtitle data in text format, M. u00cddia of gravau00c7u00e7o passu00cdvel reading in the computer.Method for control of a device for data sincronizau00c7u00e7o audio / video (AV) with the subtitle data in text format, media present passu00cdvel reading in the computer, and method of reproduu00c7u00e7o subtitle data in text format in sicronizau00c7u00e7o with data of audio / video (AV) [P] . BRPI0507879A2 . 2009-03-10

机译：存储介质使用grava u00c7 u00e7o / reprodu u00c7 u00e7o设备，reprod u00c7 u00e7o文本格式的字幕数据以及音频 /视频数据（ AV），一种用于以文本格式复制音频 /视频（AV）和字幕数据的设备，M。 grava u00c7 u00e7o通过计算机中的读取控制设备的方法用于带有文本格式字幕数据的数据sincroniza u00c7 u00e7o音频//视频（AV），计算机中媒体当前通过 u00cdvel读取以及以sicroniza u00c7 文本格式复制字幕数据的方法u00e7o带有音频 /视频（AV）数据
4. OPEN CAPTION SYSTEM FOR SUPPORTING TEMPLATE-BASED OPEN CAPTION EDITING AND VIDEO PLAYER INCLUDING TEMPLATE-BASED OPEN CAPTION ENGINE [P] . 韩国专利： KR20130034106A . 2013-04-05

机译：用于支持基于模板的开放字幕编辑和视频播放器（包括基于模板的开放字幕引擎）的开放字幕系统
5. OPEN CAPTION SYSTEM FOR SUPPORTING TEMPLATE-BASED OPEN CAPTION EDITING AND VIDEO PLAYER INCLUDING TEMPLATE-BASED OPEN CAPTION ENGINE [P] . 韩国专利： KR101265668B1 . 2013-05-24

机译：用于支持基于模板的开放字幕编辑和视频播放器（包括基于模板的开放字幕引擎）的开放字幕系统