首页> 中国专利> 一种基于笔画宽度图的图像中文字数据提取方法

一种基于笔画宽度图的图像中文字数据提取方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于笔画宽度图的图像中文字数据提取方法，包括：读入彩色图像，利用均值聚类算法对颜色进行聚类，得到第一二值图像序列；利用边缘检测算法和形态学连通域分析方法，得到第二二值图像序列；利用几何滤波器对合并后的序列进行第一次滤除，得到第三二值图像序列；计算第三二值图像序列的笔画宽度图，根据笔画宽度图对第三二值图像序列进行第二次滤除，得到第四二值图像序列；将第四二值图像序列中所有的图像叠加，得到提取的文字结果。与现有技术相比，本发明通过判断图像亮度值自适应地选取颜色聚类算法中的距离，可较好地处理光照不均匀等退化图像；通过改善传统的笔画宽度计算方法，提高了文字提取技术的性能。

著录项

公开/公告号CN104598907A

专利类型发明专利
公开/公告日2015-05-06

原文格式PDF
申请/专利权人同济大学;
展开▼

申请/专利号CN201310534130.9
发明设计人刘春梅;
展开▼

申请日2013-10-31
分类号G06K9/46(20060101);G06K9/20(20060101);
代理机构31225 上海科盛知识产权代理有限公司;
代理人王小荣
地址 200092 上海市杨浦区四平路1239号
入库时间 2023-12-18 08:44:53

法律信息

法律状态公告日

法律状态信息

法律状态
2017-12-05

授权

授权
2015-05-27

实质审查的生效 IPC(主分类):G06K9/46 申请日:20131031

实质审查的生效
2015-05-06

公开

公开

说明书

技术领域

本发明涉及图像处理与计算机视觉技术领域，尤其是涉及一种基于笔画宽度图的图像中文字数据提取方法。

背景技术

图像中文字对于理解图像内容起着重要作用，图像中文字提取的准确与否直接影响着文字自动处理系统的后续处理结果。近年来图像中的文字提取取得了很大的进展，然而图像中的文字提取在走向实用化的过程中，却遇到了很多问题，如图像模糊不清楚、光照不均匀、背景复杂等等，这都是制约图像中文字自动提取技术实际应用的瓶颈，又是图像中文字自动提取技术研究中的热点和难点。

近几十年国内外许多研究者开始对图像中文字自动提取技术进行研究，这些方法可分为两类：第一类是基于阈值分割的文字提取方法，即通过求取阈值对图像进行二值化处理从而得到文字前景图像，常用阈值求取方法有基于全局阈值方法和局部阈值方法，这方法处理质量较好的图像会得到比较好的结果，对于低质量图像和具有复杂背景的图像常常表现得无能为力；第二类是基于区域分析的文字提取方法，通过提取一些区域前景，并判断这些区域是否满足文字特点从而排除非文字区域，常用的文字特点有：文字区域内容通常具有一致的颜色、文字区域具有相同的笔画宽度等等，这种方法比较灵活，并且可以处理各种各样复杂情况下的图像中文字提取。基于区域分析的文字提取方法，可进一步分成基于颜色聚类的文字提取方法和基于笔画宽度信息的文字提取方法。

基于颜色聚类的文字提取方法是利用聚类算法对图像中的颜色进行聚类从而形成一些区域，然后再利用文字属性特点评价这些区域，进而得到文字区域。常用的聚类算法有k均值聚类算法、Isodata算法等等。颜色空间的选取可根据图像质量进行选取，常用的颜色空间有RGB、HIS等。

基于笔画宽度信息的文字提取方法充分利用了文字的一个重要特点，文字区域通常具有相似笔画宽度，笔画之间的宽度不会相异很多。大多数提取笔画宽度信息的方法是分别在水平和垂直方向上对图像进行扫描，如果出现成对的颜色值突变，就可计算这对颜色值突变像素点之间的聚类作为笔画宽度信息，这种方法处理复杂情况下的文字提取，具有不稳定性，常常会出现误提或漏提现象。另外一种方法是利用笔画宽度转化算子检测图像中的文字，即通过每个笔画边缘点沿梯度方向发射射线寻找此点的笔画宽度，这种方法无法准确地计算出笔画拐角处笔画宽度信息，只能提取到大致的笔画宽度信息，很难提取到真实的笔画宽度信息。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于笔画宽度图的图像中文字数据提取方法。

本发明的目的可以通过以下技术方案来实现：一种基于笔画宽度图的图像中文字数据提取方法，其特征在于，包括以下步骤：

S1、读入彩色图像I，利用均值聚类算法对颜色进行聚类，在聚类后的图像中提取连通域，并得到所有连通域对应的二值图像，形成第一二值图像序列 i_C＝1，...，n_C，其中，n_C为连通域个数；

S2、读入彩色图像I，利用边缘检测算法和形态学连通域分析方法，对彩色图像进行边缘提取，在边缘提取后的图像中提取连通域，并得到所有连通域对应的二值图像，形成第二二值图像序列i_e＝1，...，n_e，其中，n_e为连通域个数；

S3、将第一二值图像序列和第二二值图像序列合并，利用几何滤波器对合并后的二值图像序列进行非文字连通域的第一次滤除，将经过第一次滤除后的二值图像序列更新为第三二值图像序列i_C＝1，...，n_g，其中，n_g为第一次滤除后的连通域个数；

S4、计算第三二值图像序列中每个二值图像对应的笔画宽度图根据笔画宽度图对第三二值图像序列进行非文字连通域的第二次滤除，得到第四二值图像序列i_s＝1，...，n_s，其中，n_s为第二次滤除后的连通域个数；

S5、将第四二值图像序列中所有的二值图像叠加成一幅新的二值图像I_s，二值图像I_s的前景即为提取到的文字结果。

步骤S1所述的利用均值聚类算法对颜色进行聚类具体步骤如下，

11)提取彩色图像I在HSL颜色空间的亮度通道L上对应的图像为I_i，预设亮度阈值tr_c，基于欧式距离颜色聚类的聚类数目k_E，基于余弦相似性颜色聚类的聚类数目k_C；

12)判断是否I_l＞tr_c，是则采用余弦相似性在RGB颜色空间对彩色图像I进行 k均值聚类，把聚类后的每一类视为前景图像，得到k_C个二值图像；否则采用欧式距离在RGB颜色空间对彩色图像I进行k均值聚类，得到k_E个二值图像。

实施步骤S2具体步骤如下，

21)利用加权平均值法将彩色图像I灰度化，得到灰度图像I_g；

22)利用边缘检测算子对灰度图像I_g进行边缘检测得到边缘二值图像I_e1；

23)对边缘二值图像I_e1中断了的笔画在邻域内进行连接，即利用二值图像形态学8邻域像素连接操作对边缘图像I_e1进行断点连接，得到边缘二值图像I_e2；

24)提取边缘二值图像I_e2中的连通域，若连通域是闭合区域，则对其进行填充成实心连通域，视每个连通域为前景图像，得到每个连通域对应的二值图像，形成第二二值图像序列

步骤21)所述的利用加权平均值法将彩色图像I灰度化，得到灰度图像I_g，彩色图像I中每点的灰度值计算公式为：

Gray＝0.2989×I_R+0.587×I_G+0.114×I_B，

式中，I_R、I_G、I_B分别为该点在彩色图像I中的三通道像素值，Gray为该点灰度化后的灰度值。

步骤22)所述的边缘检测算子为Canny边缘检测算子。

步骤S3所述的利用几何滤波器对合并后的二值图像序列进行非文字连通域的第一次滤除具体步骤如下，

31)设定图像I的尺寸s_Ih×s_Iw，二值图像的连通域的外接矩形尺寸下限s_h×s_w、最大尺寸比例r_l、长宽比下限r_b、长宽比上限r_t以及连通域内含洞数下限n_htr；

32)判断合并后每一个二值图像是否满足任意一项几何滤波器规则，是则将当前二值图像从合并后的二值图像序列中删除，所述的几何滤波器由四项规则构成：

R1.排除过小的连通域，如果当前二值图像I_i的连通域的最小外接矩形尺寸小于连通域尺寸下限s_h×s_w，则认为此连通域为非文字区域；

R2.排除过大的连通域，如果当前二值图像I_i的连通域的最小外接矩形尺寸大于图像I的尺寸r_l×s_Ih×s_Iw，则认为此连通域为非文字区域：

R3.排除过长或过窄的连通域，如果当前二值图像I_i的连通域的最小外接矩形长宽比小于r_b或大于r_t，则认为此连通域为非文字区域；

R4.排除含有过多空洞的连通域，如果当前二值图像I_i的连通域内所含空洞个数大于n_htr，则认为此连通域为非文字区域。

实施步骤S4具体步骤如下，

41)计算当前二值图像连通域前景内每个象素点j到连通域边缘点p的最短距离d_pj，并用边缘点p标记像素点j_p；

42)在具有相同最近边缘点p的前景象素点j_p至边缘点p的最短距离d_pj里选取最大距离d_pj-max＝max(d_pj)作为前景象素点j_p的笔画宽度，用d_pj-max替代像素点j_p，得到当前二值图像对应的笔画宽度图

43)根据当前笔画宽度图计算当前二值图像连通域的笔画标准离差率R：

$R = \frac{\sqrt{\frac{1}{n_{i}} Σ_{j = 1}^{n_{i}} {(d_{pj - \max} - \frac{1}{n_{i}} Σ_{j = 1}^{n_{i}} d_{pj - \max})}^{2}}}{\frac{1}{n_{i}} Σ_{j = 1}^{n_{i}} d_{pj - \max}},$

式中，n_i是二值图像连通域前景点的总数目；

44)判断是否R＞tr_r，是则认为笔画宽度不一致，当前二值图像的连通域是非文字区域，将当前二值图像从第三二值图像序列中删除，其中tr_r为预设的笔画标准离差率阈值；

45)判断当前二值图像是否为第三二值图像序列的最后一个二值图像否则更新i_g＝i_g+1，读取下一个二值图像返回步骤41)；是则将排除非文字区域后的第三二值图像序列更新为第四二值图像序列i_s＝1，...，n_s，跳出循环，其中n_s为连通域个数。

与现有技术相比，本发明通过判断图像亮度值自适应地选取颜色聚类算法中的距离，可较好地处理光照不均匀等退化图像；此外，通过改善传统的笔画宽度计算方法，在具有相同最近边缘点的前景象素点至边缘点的最短距离里选取最大距离作为前景象素点的笔画宽度，能够更准确地计算出连通域的笔画宽度，从而提高文字提取技术的性能。

附图说明

图1为本发明的流程图；

图2为本发明实施例笔画宽度图；

图2中，(a)连通域边缘图；(b)最短距离图；

图3为本发明实施例的文字提取结果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。以下仅为本发明的优选实施例，仅仅是对本发明的举例说明，而非对本发明及其应用或用途的限制，根据本发明得出的其它实施方式，也同样属于本发明的技术创新范围，方案中有关参数的设定也并不表明只有举例值可以使用。

实施例：

选用包含英文字符、光照不均匀的低质量图像I，颜色特征空间为RGB，设定亮度阈值tr_c＝0.9，基于欧式距离颜色聚类的聚类数目k_E＝3，基于余弦相似性颜色聚类的聚类数目k_C＝3。

如图1-3所示，一种基于笔画宽度图的图像中文字数据提取方法，其特征在于，包括以下步骤：

步骤S1所述的利用均值聚类算法对颜色进行聚类具体步骤如下，

11)提取彩色图像I在HSL颜色空间的亮度通道L上对应的图像为I_l，预设亮度阈值tr_c，基于欧式距离颜色聚类的聚类数目k_E，基于余弦相似性颜色聚类的聚类数目k_C；

12)判断是否I_I＞tr_c，是则采用余弦相似性在RGB颜色空间对彩色图像I进行 k均值聚类，把聚类后的每一类视为前景图像，得到k_C个二值图像；否则采用欧式距离在RGB颜色空间对彩色图像I进行k均值聚类，得到k_E个二值图像。

实施步骤S2具体步骤如下，

21)利用加权平均值法将彩色图像II灰度化，得到灰度图像I_g；

彩色图像I中每点的灰度值计算公式为：

Gray＝0.2989×I_R+0.587×I_G+0.114×I_B，

式中，I_R、I_G、I_B分别为该点在彩色图像I中的三通道像素值，Gray为该点灰度化后的灰度值。

22)利用Canny边缘检测算子对灰度图像I_g进行边缘检测得到边缘二值图像I_e1；

23)对边缘二值图像I_e1中断了的笔画在邻域内进行连接，即利用二值图像形态学8邻域像素连接操作对边缘图像I_e1进行断点连接，得到边缘二值图像I_e2；

所述的利用几何滤波器对合并后的二值图像序列进行非文字连通域的第一次滤除具体步骤如下，

R1.排除过小的连通域，如果当前二值图像I_i的连通域的最小外接矩形尺寸小于连通域尺寸下限s_h×s_w，则认为此连通域为非文字区域；

R2.排除过大的连通域，如果当前二值图像I_i的连通域的最小外接矩形尺寸大于图像I的尺寸r_l×s_Ih×s_Iw，则认为此连通域为非文字区域；

R3.排除过长或过窄的连通域，如果当前二值图像I_i的连通域的最小外接矩形长宽比小于r_b或大于r_t，则认为此连通域为非文字区域；

R4.排除含有过多空洞的连通域，如果当前二值图像I_i的连通域内所含空洞个数大于n_htr，则认为此连通域为非文字区域。

实施步骤S4具体步骤如下，

41)计算当前二值图像连通域前景内每个象素点j到连通域边缘点p的最短距离d_pj，并用边缘点p标记像素点j_p，如图2(a)所示；

42)在具有相同最近边缘点p的前景象素点j_p至边缘点p的最短距离d_pj里选取最大距离d_pj-max＝max(d_pj)作为前景象素点j_p的笔画宽度，用d_pj-max替代像素点j_p，得到当前二值图像对应的笔画宽度图如图2(b)所示；

43)根据当前笔画宽度图计算当前二值图像连通域的笔画标准离差率R：

$R = \frac{\sqrt{\frac{1}{n_{i}} Σ_{j = 1}^{n_{i}} {(d_{pj - \max} - \frac{1}{n_{i}} Σ_{j = 1}^{n_{i}} d_{pj - \max})}^{2}}}{\frac{1}{n_{i}} Σ_{j = 1}^{n_{i}} d_{pj - \max}},$

式中，n_i是二值图像连通域前景点的总数目；

S5、将第四二值图像序列中所有的二值图像叠加成一幅新的二值图像I_s，二值图像I_s的前景即为提取到的文字结果，如图3所示。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于笔画宽度图的图像中文字数据提取方法 [P] . 中国专利： CN104598907B . 2017.12.05
2. 一种基于笔画宽度图的图像中文字数据提取方法 [P] . 中国专利： CN104598907A . 2015-05-06
3. Method for operating depth image-camera system, involves determining depth map based on data of light propagation time camera, and another depth image based on data of two-dimensional images of two-dimensional image acquisition [P] . 德国专利： DE102013208106A1 . 2013-11-28

机译：用于操作深度图像相机系统的方法，包括基于光传播时间相机的数据确定深度图，以及基于二维图像采集的二维图像的数据确定另一深度图像。
4. Method for segmenting image data for separating target structure by regional growth method on basis of graph, involves visualizing image data and graph by graphical user interface [P] . 德国专利： DE102008013909A1 . 2009-10-08

机译：基于图的区域增长法分割图像数据以分离目标结构的方法，包括通过图形用户界面可视化图像数据和图
5. Ori is an interactive media tool that allows users to scan Ori-enabled media and interact with the data it contains (figure 1) users can: 1. Interact with Ori related printed media 2. Interact with features of Ori program 3. Save, store and edit data relating to their scans 4. Share and collate Ori data The tool uses image recognition and Optical Character Recognition (OCR) on the image captured by the user's Smartphone camera. The image recognition and OCR technologies will detect a pattern and find it's match on the Ori database. [P] . AU2014100652A4 . 2014-07-17

机译： Ori是一种交互式媒体工具，它使用户可以扫描支持Ori的媒体并与其包含的数据进行交互（图1），用户可以：1.与Ori相关的印刷媒体进行交互2.与Ori程序的功能进行交互3.保存，存储并编辑与扫描有关的数据。4.共享和整理Ori数据该工具对用户的智能手机相机捕获的图像使用图像识别和光学字符识别（OCR）。图像识别和OCR技术将检测出一个模式，并在Ori数据库中找到它的匹配项。