首页> 中国专利> 基于模板匹配及曲线拟合的视频字幕细化方法

基于模板匹配及曲线拟合的视频字幕细化方法

摘要

基于模板匹配及曲线拟合的视频字幕细化方法,涉及多媒体信息处理领域。本发明结合汉字的结构特征,对汉字笔划进行提取与重绘,从而达到汉字细化的效果,解决了其他细化算法在对该类对象进行细化时产生的笔划扭曲、丢失及识别率低的问题。本发明技术要点包括:获取视频字幕中汉字图像;确定汉字图像的连通区域;提出模板匹配法提取同一连通区域内汉字笔划;提出用水平、竖直线段重绘 “横”、“竖”笔划,二次Bezier曲线重绘“撇”、“捺”笔划,斜线段重绘“点”笔划的方法,从而实现汉字图像的细化效果。本发明保持了汉字的形状及笔划结构,避免了扭曲现象;保证了笔划的横平竖直及撇捺的弯曲度,更好地重绘出汉字的形态;提高了视频字幕的识别效果。

著录项

  • 公开/公告号CN104021385A

    专利类型发明专利

  • 公开/公告日2014-09-03

    原文格式PDF

  • 申请/专利权人 北京信息科技大学;

    申请/专利号CN201310066629.1

  • 发明设计人 吕学强;李钦瑞;

    申请日2013-03-02

  • 分类号G06K9/20;

  • 代理机构

  • 代理人

  • 地址 100192 北京市海淀区清河小营东路12号北京信息科技大学

  • 入库时间 2023-12-17 01:34:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-28

    未缴年费专利权终止 IPC(主分类):G06K 9/20 专利号:ZL2013100666291 申请日:20130302 授权公告日:20171121

    专利权的终止

  • 2017-11-21

    授权

    授权

  • 2014-10-08

    实质审查的生效 IPC(主分类):G06K9/20 申请日:20130302

    实质审查的生效

  • 2014-09-03

    公开

    公开

说明书

技术领域

本发明属于多媒体信息处理领域,具体地说,是涉及一种基于视频字 幕的汉字图像细化方法。

背景技术

视频字幕中包含的丰富语义知识,为多媒体检索提供了重要的信息。 因此,如何自动、有效地检测、分割、识别视频字幕,成为学术界、 企业界、政界监管部门所面临的一大挑战。近年来,在视频字幕检测 、分割方面存在较多有效方法,但对于低像素的视频字幕识别仍然是 个研究难题。

目前,对于中文字符的识别已存在成熟的OCR识别技术。但该技术仅对 具有高分辨率的扫描字体可达到较高识别准确率,而对于低分辨率的 视频字幕,由于其笔划粗细不均匀,二值化后像素丢失等问题导致识 别结果不是很理想。因此,需要通过对输入OCR的字幕图像进行细化处 理,来提高最终的识别效果。目前,经典的图像细化算法在用于汉字 图像时,会使汉字笔划发生扭曲、歪斜、丢失等现象,导致无法有效 地识别。而其他针对汉字图像的细化方法,如基于字符骨架的汉字细 化算法、基于数学形态学细化算法、基于图形集合运算方法等,同样 仅适用于清晰汉字图像,对于视频字幕这种低分辨率的汉字图像,不 具有很强的适用性。

通过对汉字国标(GB2312-80)一级、二级字库的6763个汉字的统计与 分析发现,标准汉字字体主要由 “横”、“竖”、“撇”、“捺” 四种基本笔划组成,其他笔划可视为复合笔划。

为此,依据汉字的结构特征,本发明提出了一种基于模板匹配及曲线 拟合的视频字幕细化方法,通过设计模板提取汉字笔划,设计不同的 拟合方式对“横”、“竖”、“撇”、“捺”四种基本笔划进行重绘 ,为低分辨率中文视频字幕的细化及视频字幕识别提供了一种有效的 途经。

发明内容

本发明的目的是提出一种针对视频中文字幕的有效细化方法,结合汉 字的结构特征,对汉字笔划进行提取与重绘,达到汉字细化的效果, 解决其他细化算法对该类对象进行细化时产生的笔划扭曲、丢失等问 题。

本发明提供的一种基于模板匹配及曲线拟合的视频字幕细化方法,其 包括步骤:

步骤A,视频字幕中汉字图像的获取;

视频字幕存在于组成视频的各个帧中,因此本发明采用FFMPEG工具对 输入的视频(A01)进行解码抽帧(A02),并使用不等权策略将每一 帧转换为8位灰度图;删除视频中空字幕帧,并对重复字幕的帧进行去 重,提取有效帧(A03);从有效帧中提取字幕区域,并对字幕区进行 二值化,设置背景色为白色,前景色即汉字颜色为黑色(A04);对字 幕区进行扫描分割获取各个汉字图像(A05)。

步骤B,确定汉字图像的连通区域;

连通区域由前景像素构成,可定义如下:两个前景像素P、Q是连通的 当且仅当存在一条路径P1P2…Pi…Pn,使得P1=P,Pn=Q,1≤i≤n-1, 有Pi与Pi+1相邻。

采用八连通域法确定汉字图像的连通区域,获取属于同一个连通域的 像素点,并计算连通域个数。

步骤C,模板匹配法提取同一连通区域内汉字笔划;

本发明将同一连通区域内汉字笔划划分为简单笔划及复杂笔划。所谓 简单笔划是指在一个连通域中仅有一个“横”、“竖”或“点”笔划 ,如“问”中的“竖”、“点”属于简单笔划;复杂笔划是指在一个 连通域中包含多种笔划的连接或包含“撇”、“捺”笔划,如“直” 仅有一个连通域,且该连通域内笔划属于复杂笔划。

为提高汉字笔划提取效率,本发明根据连通区域形状特征,判别汉字 笔划是简单笔划还是复杂笔划,并分类处理两类笔划。

以汉字图像的左上角为坐标原点,向右、向下方向分别为X轴、Y轴的 正方向建立直角坐标系。对任一连通域,获取区域内像素点个数num, x轴方向上的最小值minx、最大值maxx,y轴方向上的最小值miny、最 大值maxy。

判别简单笔划。当式子

maxx-minx+1>bre1maxy-miny+1<bre2

成立时,视该连通域为简单笔划中“横”笔划,其中bre1为单独“横 ”笔划的长度阈值,bre2为单独“横”笔划的宽度阈值。 简单笔划 中“竖”、“点”笔划的判断同理。

对于不在以上情况的像素点集,视为复杂笔划,包括“撇”、“捺” 及多种笔划交叉情况。这些笔划无法通过区域的边界特征进行提取, 因此,提出模板匹配算法提取复杂笔划中的“横”、“竖”、“撇” 、“捺”笔划。

模板匹配算法:采用长度分别为l1、l2、l3、l4个像素的横线段、竖 线段、斜率为1的斜线段、斜率为-1的斜线段做模板;应用四种模板分 别对连通域内像素点进行扫描匹配。具体匹配方法如下:

C01“横”笔划的提取;

采用长度为l1个像素的横线段做模板,对连通域内像素点进行逐行扫 描标记。即当点(x0,y0)与点(x0+l1-1,y0)及其中间像素点均为黑点时 ,对点(x0,y0)到点(x0+l1-1,y0)之间的所有像素点作标记,并将模板 向右移动一个像素,如此迭代,直到扫描完成。在完成全部扫描后, 做标记的点可形成一幅新的图像。对该图像采用四连通域法,即两点 之间仅互为上下或左右关系,进行连通域扫描,得到的每个连通域即 为一个“横”笔划。

C02“竖”笔划的提取;

与提取“横”笔划类似,以长度为l2个像素的竖线段做模板,对连通 域内像素点进行逐列扫描标记。即当点(x0,y0)与点(x0,y0+l2-1)及中 间像素点均为黑点时,对点(x0,y0)到点(x0,y0+l2-1)之间的所有像素 点作标记,并将模板向下移动一个像素,如此迭代,直到扫描完成。 在完成全部扫描后,对由标记的点形成的新图像,采用四连通域法进 行连通域扫描,得到的每一个连通域即为一个“竖”笔划。

C03“撇”笔划的提取;

采用长度为l3个像素、斜率为1的斜线段做模板,对连通域内像素点以 模板方向进行扫描标记,即当点(x0,y0)和点(x0-l3+1,y0+l3-1)及中 间点均为黑点时,对点(x0,y0)到点(x0-l3+1,y0+l3-1)之间的所有像 素点作标记,并将模板向右移动一个像素,如此迭代,直到扫描完成 。在完成全部扫描后,标记的点 将形成新的图像。由于采用斜率为1的线段作为模板,而实际汉字中的 “撇”笔划并不是一条直线段,因此可以通过适当调整l3的取值后, 采用八连通域法进行连通域扫描,得到的每一个连通域即为一个“撇 ”笔划。

C04“捺”笔划的提取;

与提取“撇”笔划类似,采用长度为l4个像素、斜率为-1的斜线段做 模板,对连通域内像素点以模板的方向进行迭代扫描,即当点(x0,y0)和点(x0-l4-1,y0+l4-1)及中间像素点均为黑点时,从点(x0,y0)到点 (x0-l4-1,y0+l4-1)之间的所有像素点作标记,并将模板向右移动一个 像素,如此迭代,直到扫描完成。在完成全部扫描后,对由标记的点 形成的新图像,采用八连通域法进行连通域扫描,得到的每一个连通 域即为一个“捺”笔划。

步骤D,曲线拟合法重绘汉字笔划。

本发明通过对提取的汉字笔划进行重绘来实现汉字的细化操作。分别 用宽度为1个像素的水平、竖直线段对提取的“横”、“竖”笔划进行 重绘;用宽度为1个像素的二次Bezier曲线对提取的“撇”、“捺”笔 划进行重绘;用宽度为1个像素的斜线段对提取的“点”笔划进行重绘 。具体重绘方法如下:

D01“横”笔划的重绘;

对提取的“横”笔划,若其像素点在坐标系中的纵坐标从y1变化到y1 (y1<y2),横坐标从x1变化到x2 (x1<x2),则细化“横”笔划的 纵坐标为,横坐标从x1+bre到x2-bre依次递增。为避免笔划连接地方 在细化后出现毛刺,将bre设为汉字笔划的平均像素宽度的一半。

在对“横”进行重绘的过程中,要考虑到如“欠”这类含有“横勾” 的情况。在横笔划的末端点处进行向下、左下方向的连续扫描,当扫 描得到长度l满足bre<l<l3时,视为存在“横勾”笔划,并用斜线段 对“勾”笔划进行重绘。

D02“竖”笔划的重绘;

同 “横”笔划的重绘相似,细化“竖”笔划的横坐标为,纵坐标从 y1+bre到y2-bre依次递增。

在对“竖”进行重绘的过程中,与处理“横勾”类似的方法,处理如 “小”、“银”这类的含有“竖勾”、“竖提”的情况。

D03“撇”笔划的重绘;

对提取的“撇”笔划,若其左下点的坐标为P0(x1,y1),右上点的坐标 为P2(x2,y2),点P (x2,y1)是使三角形P0PP2为直角三角形的一个顶 点,且该点在线段P0P2下方,则RtΔP0PP2的内心坐标为,其中,

a=|PP2|=|y2-y1|

b=|PP0|=|x2-x1|

c=|P0P2|=(x1-x2)2+(y1-y2)2

将P0、P1、P2带入二次Bezier曲线公式: 

B(t)=(1-t)2P0+2t(1-t)P1+t2P2,t[0,1]

方程B(t)随时间t变化的轨迹,即为对“撇”笔划的拟合曲线。采用该 拟合曲线对“撇”笔划进行重绘。

D04“捺”笔划的重绘;

与“撇”笔划的重绘过程相似,若连通域中左上点的坐标为P0(x1,y1),右下点的坐标为P2(x2,y2),点P (x2,y1)是使三角形P0PP2为直角 三角形的一个顶点,且该点在线段P0P2下方,则RtΔP0PP2的内心坐标 为,其中,

a=|PP2|=|y2-y1|

b=|PP0|=|x2-x1|

c=|P0P2|=(x1-x2)2+(y1-y2)2

将P0、P1、P2带入二次Bezier曲线公式:

B(t)=(1-t)2P0+2t(1-t)P1+t2P2,t[0,1]

方程B(t)随时间t变化的轨迹,即为对“捺”笔划的拟合曲线。采用该 拟合曲线对“捺”笔划进行重绘。

D05“点”笔划的重绘;

若“点”笔划的两端点分别为P1(x1,y1)、P2(x2,y2),该线段斜率为 :

k=y2-y1x2-x1

当-1<k<0时,“点”笔划趋于更坡的方向。为了使绘制的线段不间 断,此时使用x表示y的函数进行重绘“点”笔划,如下:

y=k×(x-x1)+y1

当k<-1时,“点”笔划趋于更陡的方向。为了使绘制的线段不间断, 此时使用y表示x的函数进行重绘“点”笔划,如下:

x=(y-y1)/k+x1

本发明的有益效果是:将汉字图像按连通域结构划分为简单笔划及复 杂笔划,并仅对复杂笔划采用模板匹配方法进行笔划提取,实现高效 率地笔划提取;根据汉字的结构特征,采用曲线拟合方法对提取的笔 划进行重绘,从而实现字幕的细化操作,其细化后效果保持了汉字的 形状及笔划结构,避免了扭曲现象;保证了笔划的横平竖直及撇捺的 弯曲度,更好地重绘出汉字的形态;优化了视频字幕的识别效果。

附图说明

图1为本发明提供的基于模板匹配及曲线拟合的视频字幕细化方法的流 程图;

图2为中文视频字幕图像的获取过程。

具体实施方式

下面结合附图和实施例,对本发明提供的一种基于模板匹配及曲线拟 合的视频字幕提取方法作详细地说明。以下实施例用于说明本发明, 但不用来限制本发明的范围。

A汉字图像的获取。

用含中文字幕的电视剧作为输入。由于中国的电视播放每秒25帧,为 避免字幕重复帧过多,在用FFMPEG对视频进行解帧后,每隔30帧做一 次帧保存操作,提取1000帧。在帧的输出过程中,将帧保存为BMP格式 并利用下面不等权策略的公式:

L(x,y)=0.3×R(x,y)+0.59×G(x,y)+0.11×B(x,y)

将图像转换为8位灰度图。公式中L(x,y)为像素点(x,y)的灰度值,R( x,y)、G(x,y)、B(x,y)分别为该点的红、绿、蓝分量。

根据视频字幕的特征,判断提取出的视频帧是否包含字幕区并过滤掉 无字幕帧。再通过对相邻帧进行比较,对含相同字幕的帧进行去重。 经过对提取帧的两步筛选,剩余有效字幕帧共469帧,包含3568个汉字 。

对提取的有效帧,根据字幕区含有丰富的边缘特征这一特点,确定出 字幕区域的上、下、左、右边界,从而提取视频字幕区。对字幕区进 行二值化,并将背景色置白色,前景色即汉字颜色置黑色。由于二值 化时,所选阈值的大小,将决定细化前汉字的初始状态,并将影响细 化效果。二值化阈值越大,得到的汉字笔划越细,锯齿现象越严重; 所选阈值越小,得到的汉字笔划越容易出现粘连现象。因此,分别采 用90、110、130的阈值大小对汉字图像进行二值化操作并对细化效果 进行对比。

B确定汉字图像的连通区域。

采用八连通域法确定汉字图像的连通区域。将要遍历的汉字图像存到 数组M[h][w]中。其中,h是汉字图像的高度,w是汉字图像的宽度。设 定与数组M维数相同的数组Visted,元素取值如下:

扫描数组M,当M[i][j]为黑点且对应的Visited[i][j]=0时,标记该点 并设置Visited[i][j]=1。以M[i][j]为出发点,对该点的周围八个方 向按条件进行深度递归扫描,且将扫描到的点全部加以相同的标记, 直到扫描不到符合要求的点,一个连通域的扫描结束。使用同样的方 法,扫描其他的连通域。

C模板匹配法提取同一连通区域内汉字笔划。

根据连通区域内像素点个数num,x轴方向上的最小值minx、最大值ma xx,y轴方向上的最小值miny、最大值maxy所满足的关系,判定该连通 区域是否表示简单笔划。

当式子

maxx-minx+1>bre1maxy-miny+1<bre2

成立时,视该连通域为简单笔划中“横”笔划,其中bre1为单独“横 ”笔划的长度阈值,bre2为单独“横”笔划的宽度阈值。简单笔划中 “竖”、“点”笔划的判断同理。

对于复杂笔划采用模板匹配算法进行扫描匹配,即使用长度分别为l1、l2、l3、l4个像素大小,以X轴正方向为基准,角度为0°,45°, 90°,135°的线段做模板,匹配连通域内的“横”、“竖”、“撇” 、“捺”笔划。

用每种笔划所对应的模板在同一连通域内进行扫描,以扫描“横”笔 划为例。设定与汉字图形大小相等的矩阵Mh×w,其中h是汉字图像的高度 ,w是汉字图像的宽度。将矩阵M进行初始化,并对汉字图像进行行扫 描。若从点(x0,y0)和点(x0+l1-1,y0)之间(包括两端点)均为黑点, 则将M矩阵从相应的点(x0,y0)到点(x0+l1-1,y0)作黑点标记。将x0向 前移动一步,继续执行相同的过程,每行匹配结束后执行下一行。在 对汉字图像进行一次扫描结束后,矩阵M已经将该汉字中的所有“横” 做出了标记。每一个连通区域就为一个“横”。其他笔划的扫描过程 与“横”笔划的扫描过程类似。

D曲线拟合法重绘汉字笔划。

对提取的“横”、“竖”笔划分别用水平、竖直线段进行重绘。以“ 横”笔划为例,获取“横”笔划所对应的连通区域的上、下、左、右 边界,通过上、下边界确定“横”笔划所在的水平位置,左、右边界 确定“横”笔划的左、右端点,用水平线段进行重绘。“竖”笔划的 重绘方法类似。

对提取的“撇”、“捺”笔划,采用二次Bezier曲线进行重绘。以“ 撇”笔划为例,获取“撇”笔划的两个端点坐标,即连通域中最左下 点的坐标P0(x1,y1)及最右上点的坐标P2(x2,y2),点P (x2,y1)为使 三角形P0PP2为直角三角形的一个顶点,则RTΔP0PP2的内心坐标为, 则拟合“撇”笔划的曲线为由P0、P1、P2所形成的二次Bezier曲线。 用该曲线对“撇”笔划进行重绘。“捺”笔划采用类似方法进行重绘 。

对提取的“点”笔划,采用斜线段进行重绘。为了使绘制的线段不间 断,根据“点”笔划的倾斜度不同,选择不同的拟合函数。

当-1<k<0时,使用x表示y的函数进行重绘“点”笔划,如下:

y=k×(x-x1)+y1

当k<-1时,使用y表示x的函数进行重绘“点”笔划,如下:

x=(y-y1)/k+x1

其中,k为“点”笔划的两端点连接线段的斜率。

为了检测本发明提供的基于模板匹配及曲线拟合的视频字幕细化方法 的有效性,对提取的3568个汉字图像的细化结果进行OCR识别操作,并 与经典的数学形态学图像细化算法细化的结果进行识别对比。考虑到 经典的数学形态学图像细化算法具有较高的鲁棒性,且对细化对象没 有特殊要求,对该类视频字幕可以达到较好的细化效果。而其他细化 算法对细化对象的选择具有一定的局限性,对该类视频字幕的细化不 具有较强的适应性。因此,用数学形态学图像细化算法及本发明的方 法分别进行细化操作并做比较。选用OCR识别的第一候选字作为识别结 果,统计两种方法在不同阈值下的识别正确数及正确率,结果如表1所 示。

表1 

从表1中可以看出,由于汉王OCR识别器对该类视频字幕的识别效果较 弱,整体识别正确率较低。若从识别的前10个候选字中进行统计,本 发明的细化算法对阈值为110的正确率可达82.65%。但是,从两种细化 方法的比较上来看,本发明的细化结果是有效的,并且可以更好地被 识别。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号