首页> 中国专利> 一种基于边界点笔画形状的字符特征提取方法及应用

一种基于边界点笔画形状的字符特征提取方法及应用

摘要

本发明公开了一种基于边界点笔画形状的字符特征提取方法,包括(一)字符图像的预处理,获得字符的正方形字符图像;(二)对每个字符图像,提取字符边界点的笔画形状特征:(1)定义边界点的笔画形状特征;(2)沿水平方向和垂直方向分别将单元字符图像平均分为5个水平和垂直区域;(3)获得各水平区域的由西至东和由东至西方向的边界点笔画形状特征(4)获得各垂直区域的由南至北和由北至南方向的边界点笔画形状特征;(5)将各方向上的边界点笔画形状特征合并,获得字符的边界点笔画形状特征。本发明还公开了一种字符识别的方法。本发明识别准确率能达到99%以上,提取的特征维数合理,可适用于特征模板匹配,神经网络、SVM等分类器识别。

著录项

  • 公开/公告号CN102629322A

    专利类型发明专利

  • 公开/公告日2012-08-08

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN201210063621.5

  • 发明设计人 汪国有;朱曼瑜;吴红岩;陈明华;

    申请日2012-03-12

  • 分类号G06K9/20(20060101);G06K9/46(20060101);

  • 代理机构42201 华中科技大学专利中心;

  • 代理人李佑宏

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2023-12-18 06:20:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-05-04

    未缴年费专利权终止 IPC(主分类):G06K9/20 授权公告日:20140326 终止日期:20150312 申请日:20120312

    专利权的终止

  • 2014-03-26

    授权

    授权

  • 2012-10-03

    实质审查的生效 IPC(主分类):G06K9/20 申请日:20120312

    实质审查的生效

  • 2012-08-08

    公开

    公开

说明书

技术领域

本发明属于图像处理中的字符检测识别领域,具体涉及一种字符特征提取方 法及其在字符识别中的应用,可提高字符识别的速度和识别准确性,适于印刷字 体中数字和字母的识别。

背景技术

印刷体字符(数字、字母)识别在很多领域都有很重要的应用,例如:车牌 识别、钞票数字识别、邮政编码识别、工业元器件编号识别等。因此,印刷体字 符识别越来越受到人们的关注。其中,印刷体字符特征提取直接关系到分类器的 分类精度,特征选取的好坏直接影响到字符识别的速度和准确率。

字符特征提取就是对原始的字符图像数据进行变换,通过变换将原始图像数 据模式变为变换空间中的数据模式。特征提取必须遵循以下三个原则:一、最能 反映模式分类的可分性;二、特征维数尽可能的少;三、特征提取方法应该尽可 能的简单。

字符特征的提取方法有很多,根据特征生成的方式主要分成两大类:1、基 于图像统计量的特征提取方法;2、基于字符结构的特征提取方法。

字符统计量特征是指根据字符统计规律分析提取的特征,如字符黑像素密度、 傅里叶变换、小波变换、Zernike矩和主成分分析等统计量。基于统计的方法能 克服一定的字符平移、尺度、旋转变换带来的字符变型,具有良好的鲁棒性,较 好的干扰能力,但是统计方法对于相似字符的识别性能较差。

结构特征指对字符的结构分析提取的反映字符结构的特征。一般该类方法需 要先抽取笔段或基本笔画作为基元,由这些基元再构成部件,由部件的组合来描 述字符,最后再进行文法推断、识别字符。例如,根据先验知识得知,由于数字 和字母的结构都比较简单,基本都是由“横”、“竖”、“圈”、“弧”组成。对于待 识别字符,分析字符中的笔画“横”、“竖”、“圈”、“弧”的数量、位置,以及字 符区域内笔画分布的位置,即可判断识别结果。如,字符“E”可在字符区域的 上方、中间、下方检测出“横”,在左边区域检测出“竖”;字符“A”则可在字 符外接矩形的左上、右上方检测出空白区域;字符“6”则是由字符外接矩形下 半部分的“圈”和上半部分的“弧”构成。该类方法的优点在于:计算量少,识 别速度快,准确率高,对于相似字符识别也能取得较好的效果。这种方法的缺点 在于结构特征所要抽取的笔段极易受到噪声、笔画的粘连或断裂的影响,对字符 平移变换、尺度变换、旋转变换较敏感,鲁棒性差。所以,该类特征提取方法仅 适用于拍摄环境好、字符噪声较少的情况。

综上所述,统计与结构方法各有优缺点。统计方法具有良好的鲁棒性,较好 的抗干扰的能力,其统计平均把局部噪声和微小畸变淹没在最后的累加和里。但 是,可以用来区分“敏感部位”的差异也随失,因此,区分相似字的能力较差。结 构方法对结构特征较敏感,区分相似字的能力较强,但是结构特征难以抽取,不稳 定;对噪声敏感,鲁棒性差。

发明内容

本发明旨在提出一种基于边界点笔画形状特征的字符提取方法,该方法结合 了字符的结构分布特征和笔画形状特征,既能反映字符的结构特征,提高字符识 别的精确度,又能利用统计法来去除局部噪声,鲁棒性好、识别准确率高。

本发明提出的基于边界点笔画形状的印刷体字符特征提取方法,具体步骤如 下:

(一)字符图像的预处理,获得每个字符的正方形字符图像;

(二)对每个字符图像,按如下过程提取字符边界点的笔画形状特征:

(1)定义边界点的笔画形状特征,具体为:

定义边界点为扫描线上从背景色跳变为前景色时字符所对应的像素点。对任 一边界点P,计算其在方向i上连续字符色像素点数在相应的像素集中所占的比 重di,其中di=li/Sp,i,方向i指以点P为原点作直角坐标系,沿两坐标轴所在 直线及沿平分四个象限的两条直线的方向中的任一方向,i=1,2,3或4,li表示i 方向上连续字符色像素点的个数,Sp,i表示为过点P作一条沿方向i的直线,落 在该直线上的像素点数,di=[d1,d2,d3,d4]构成的向量即为该边界点P的4维笔画 形状特征;

(2)沿水平方向和垂直方向分别将单元字符图像平均分为5个水平区域和 5个垂直区域;

(3)对各个水平区域在水平方向上进行逐行扫描,获得各水平区域的边界 点的4维笔画形状特征;

(4)对各个垂直区域在垂直方向上进行逐列扫描,获得各垂直区域的边界 点笔画形状特征;

(5)将上述水平和垂直方向上的边界点笔画形状特征合并,获得字符的边 界点笔画形状特征。

作为本发明的改进,所述的步骤(3)中,获得各水平区域的边界点笔画形 状特征的具体过程为:

(3.1)对每行像素,从西向东和从东向西两个水平方向扫描,分别确定这 两个方向的边界点个数,并得到该行像素在从西向东或从东向西方向上的12维 笔画形状特征向量,即:如果边界点超过3个,计算前3个边界点的四维笔画形 状特征,即组成该行像素的12维笔画形状特征向量;如果少于3个,先计算各 边界点的四维笔画形状特征,该行像素12维笔画形状特征向量中的剩余元素用 0补齐;

(3.2)根据每一行像素的12维特征向量得到每个区域在从西向东或从东向 西方向上的特征矩阵,该特征矩阵的行数等于每个区域内的像素行数;

(3.3)对所述特征矩阵在列方向上求均值,即可得到每个区域在从西向东 或从东向西方向上的12维边界点笔画形状特征。

通过上述过程,得到字符在水平方向上的边界点笔画形状特征,其为5区域 ×2方向×12维笔画形状特征,共120维的向量

作为本发明的改进,所述的步骤(4)中,获得各垂直区域的边界点笔画形 状特征的具体过程为:

(4.1)对每列像素,从北向南和从南向北两个方向进行扫描,分别确定这 两个方向的边界点个数,并得到该列像素从北向南或从南向北方向上的12维笔 画形状特征向量,即:如果边界点超过3个,计算前3个边界点的四维笔画形状 特征,如果少于3个,先计算各边界点的四维笔画形状特征,该行像素12维笔 画形状特征向量中的剩余元素用0补齐;

其中,所述边界点指扫描线上从背景色跳变为前景色时字符所对应的像素点;

(4.2)根据每一列像素的12维特征得到每个区域在从北向南或从南向北方 向上的特征矩阵,该特征矩阵的行数等于每个区域内的像素列数;

(4.3)对该特征矩阵在列方向上求均值,于是得到每个区域在从北向南或 从南向北方向上的12维边界点笔画形状特征。

通过上述过程,得到字符在垂直方向上的边界点笔画形状特征,其为5区域 ×2方向×12维笔画形状特征,共120维的向量。

作为本发明的改进,所述步骤(一)中,图像的预处理过程具体为:

首先,将采集到的字符串图像转换为灰度图;

其次,将所述灰度图转换为二值图;

然后,对所述二值图进行切分,将图像中的字符串切分为单个的字符;

最后,对于切分好的每个单个字符,获得其外接矩形,然后进行线性插值, 将其大小归一化为长和宽相等的方形图像。

本发明还公开了一种字符识别方法,具体包括如下步骤:

(1)构建三层结构的BP神经网络,其输入层节点数为240;

(2)利用上述的字符特征提取方法提取出样本字符的边界点笔画形状特征, 再输入所述BP神经网络进行训练;

(3)提取待识别字符的边界点笔画形状特征,输入上述训练好的BP神经 网络,即可进行字符的识别。

本发明针对数字和字母的笔画结构特征、笔画分布特征,提出了边界点笔画 形状特征,能准确地描述字符形状特征,字符的细节信息能够得到很好的提取。 通过笔画形状特征能够精确地描述字符的笔画段;通过对字符进行分区,在分区 内求笔画形状特征的均值可以降低局部噪声的影响。由于本发明中的特征维数为 240维,若字符中存在少量的断裂、缺损、污渍仅会影响其中的一小部分特征的 值,通过分类器的设计可以较少这些少量噪声的影响。

统计实验结果表明,本发明在小角度(<8°)的字符倾斜、由于分割不准确 造成的在笔画宽度范围内的字符平移以及4个像素内的字符笔画宽度的差异(以 30×30大小的字符图像为例)条件下具有良好的鲁棒性。所以,本发明能够识别 包括断裂、缺块、有污点的字符,能容忍一定范围内的倾斜、平移、尺度差异, 识别准确率高、鲁棒性好、适用性强。在本实验中,识别准确率能达到99%以上。 另外,本特征提取的特征维数为240维,维数较合理不会产生维数灾难,可适用 于特征模板匹配,神经网络、SVM等分类器识别。

附图说明

图1为字符边界点的四方向示意图;

图2为字符深度的示意图;

图3为字符图像的水平分区示意图;

图4为字符图像的垂直分区示意图;

图5为字符识别流程图;

图6为边界点笔画形状特征的从其中两个方向的提取流程示意图;

图7为边界点笔画形状特征的从另两个方向的提取流程示意图。

具体实施方式

下面将结合附图对本发明做进一步的说明,本发明的字符识别流程图如图5 所示。

本发明的一种基于边界点笔画形状特征的字符提取方法,包括如下具体步骤:

(一)采集待识别的字符的图像,并对字符图像进行预处理。针对待识别的 字符图像,在进行具体识别之前,先进行必要的预处理过程,以便于后续提取字 符的笔画形状特征。具体过程包括:

1、将采集到的字符彩色图像转换为灰度图。

2、直方图均衡化,增强图像的对比度。

3、将灰度图转换为二值图。

本实施例中采用宽线检测的二值方法,针对印刷体字符的笔画线条特征来对 图像进行二值化,能有效的克服光照不均的影响,也能去除字符串图像中不属于 线条的噪声。

4、采用数学形态学的闭运算方法来消除二值化后字符串图像存在的细小断 裂。

5、采用垂直投影的方法来对字符串图像进行分割,将字符串切分为单个的 字符。

6、对于切分好的单个字符,找到它的外接矩形,然后进行线性插值,将其 大小归一化为长和宽相等(如30×30)的字符图像。插值后的图像为灰度图,再 用一般的二值化方法将其变成二值图。

(二)字符特征提取

首先,定义4维笔画特征:

假设字符笔画为白色,对于笔画中一点P,如图1所示,计算其4个方向上 连续字符色(本实施例中以白字黑底的字符图像为例,其字符色为白色)像素数 在相应的像素集中所占的比重di,i表示方向(i=1,2,3或4),li表示i方向上连 续白色像素的个数。Sp,i表示点P所在的位置上与方向i相关的像素集中的总像 素数。4个方向计算得到4维特征:di=[d1,d2,d3,d4],如式(1)~(4)。

d1=l1Sp,1---(1)

d2=l2Sp,2---(2)

d3=l3Sp,3---(3)

d4=l4Sp,4---(4)

方向i指以点P为原点作直角坐标系,沿两坐标轴所在直线及沿平分第I、 II象限和平分第II、IV象限的两条直线的方向中的任一方向。本实施例中, 可以将方向1-4的总像素数如下定义:以任意点P为原点作为直角坐标系,方向 1对应的像素集为过点P作一条与x轴正向呈135度的斜线,落在该斜线上的像 素点构成的点集;方向2对应的像素集为过点P作一条与x轴呈90度的直线, 落在该直线上的像素点构成的点集;方向3对应的像素集为过P点作一条与x 轴正向呈45度的斜线,落在该斜线上的像素点构成的点集;方向4对应的像素 集为过点P作一条与x轴呈0度的直线,落在该直线上的像素点构成的点集。

在实际的印刷体数字和字母的识别中,字母和数字的结构比较简单、明了。 通过研究印刷体数字和字符的笔画结构分布后发现,字符中的笔画“横”或者笔 画“弧”基本上只会分布于上1、上2、中、下1、下2区域,如图3所示;字 符中的笔画“竖”或者“弧”基本上只会分布于左1、左2、中、右1、右2区 域,如图4所示;于是,将字符沿垂直方向可以平均分成5个区域。同理,在水 平方向上也可以分成5个区域。因此可以将字符图像沿水平、垂直方向平均分成 5个区域。

沿着水平(垂直)线扫描字符,与扫描线相交的笔画数目称为水平(垂直) 方向上的笔画深度。经研究发现,沿着水平方向扫描数字或者字母,与水平扫描 线相交的笔画数最多为3,同理,沿着垂直扫描线扫描数字或者字母,与垂直扫 描线相交的笔画数最多也是为3。考虑最大的笔画深度,所以水平方向上的笔画 深度为3,垂直方向上的笔画深度为3。

边界点笔画形状特征即是以字符的边界点为中心,计算其笔画形状特征。在 数字和字母的识别中,考虑上、下、左、右4个边界,于是应该从东到西、从西 到东、从北到南、从南到北4个方向扫描待识别字符。

根据上述分析,字符可分为5个区域、3层深度、4个搜索方向。所以每个 字符的特征维数为:4搜索方向×5分割区域×3层深度×4维笔画形状特征=240 维。

本实施例中以白字黑底,大小为30×30的字符图像为例,进行字符的形状 笔画特征的提取,具体包括:

1、对图像进行分区,针对每个区域,获得其中字符的边界点,并得到各边 界点的笔画形状特征。边界点指扫描线上从背景色跳变为前景色时字符所对应的 像素点。

<1>考虑由西至东方向:将字符水平平均分成5个区域,每个区域将有6行 像素。

对每一个区域,用水平扫描线由西至东扫描每一行像素。以第一区域第一行 像素为例,水平扫描线由西至东,(i,j)表示像素点的坐标值,以遇到的第一个白 点为中心(即该处的边界点),根据(1)~(4)式子计算其4维笔画形状特征, 记录为d[0]、d[1]、d[2]、d[3];然后,继续扫描,直到遇到(i,j)为黑色且(i,j+1) 为白色的这样的像素点时,以(i,j+1)为边界点,以其为中心计算其笔画形状特 征。然后,扫描寻找第3个边界点,若某行的边界点数少于3个,则剩余的边界 点的笔画形状特征用0补齐。若某行的边界点数超过3个,则计算该行的前三个 边界点的笔画形状特征。

于是,每一行像素得到共12维特征。每个区域有6行像素,于是每个区域 在由西至东方向上得到一个d[6][12]这样的特征矩阵。

对这样的特征矩阵在列方向上求均值,于是得到第一 个区域在由西至东方向上的12维边界点笔画形状特征。

对5个区域都做上述运算,一共得到5×12=60维边界点笔画形状特征。图2 是经过预处理、归一化后的数字字符。

<2>由东至西方向:原理同<1>,但扫描线是由东至西扫描,同样可以得到 60维特征。

<3>由北至南方向:将字符垂直分成5个区域,每个区域将有6列像素。对 每一个区域,用垂直扫描线由北至南扫描每一列像素。以第一区域第一列像素为 例,垂直扫描线由北至南,(i,j)表示像素点的坐标值,以(i,j)为黑色且(i+1,j) 为白色的这样的边界点(i+1,j)为中心,根据(1)~(4)式子计算其4维笔画形 状特征。然后,继续扫描得到后面的边界点,并分别计算各边界点的4维笔画形 状特征,如果边界点数不足三个,则剩余边界点的笔画形状特征用0来补齐。边 界点数超过三个的,取前三个边界点。

于是,每一列像素同样是得到共12维特征。每个区域有6列像素,对列取 平均,得到第一个区域在由北至南方向上的12维边界点笔画形状特征。对5个 区域都做上述运算,一共得到5×12=60维边界点笔画形状特征。

<4>由南至北方向:原理同<3>,但扫描线的方向是由南至北扫描,同样可以 得到60维特征。

通过上述4个步骤,共得到60×*4=240维特征。

通过上述过程,即可根据字符的笔画形状提取出字符特征。

根据提取的字符特征,即可进行字符的识别。如采用BP神经网络作为分类 器进行识别,具体过程为:

(1)构建三层结构的BP神经网络,其输入层节点数为240;

(2)利用上述权利要求1-4之一所述的字符特征提取方法提取出样本字符 的边界点笔画形状特征,再输入所述BP神经网络进行训练;

(3)提取待识别字符的边界点笔画形状特征,输入上述训练好的BP神经 网络,即可进行字符的识别。

本实施例中,对0~9十个数字和A~Z(除I、O外)24个字母,共34个模 式进行识别,可采用6位数的二进制编码表示数字和字母模式,如000000表示 数字0,000001表示数字2,于是,输出层节点个数为6个。隐藏层的节点数为 36个。训练样本数目为1756个,网络的最小误差为0.0016。本发明对4018个 实时字符进行测试,识别准确率能达到99.137%。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号