首页> 中国专利> 基于纹理分析的字体和笔迹识别方法

基于纹理分析的字体和笔迹识别方法

摘要

基于纹理分析的字体和笔迹识别方法是一种对字体和笔迹识别的新方法。字体或笔迹识别技术属于模式识别领域。本发明把包含某种字体或笔迹的文档看作一种具有特定纹理的图象,把字体、笔迹识别的问题作为纹理识别来处理。本方法提取和分析全局的纹理特征,它是一种与内容无关的方法。本方法采用成熟的多通道2维Gabor滤波技术来提取这些纹理特征,使用加权欧氏距离分类器来进行模式匹配。

著录项

  • 公开/公告号CN1271140A

    专利类型发明专利

  • 公开/公告日2000-10-25

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN99105851.8

  • 发明设计人 谭铁牛;朱勇;

    申请日1999-04-21

  • 分类号G06K9/00;

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人刘秀娟

  • 地址 100080 北京市海淀区中关村南一条1号

  • 入库时间 2023-12-17 13:42:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-05-08

    未缴年费专利权终止 IPC(主分类):G06K9/00 授权公告日:20031119 终止日期:20170421 申请日:19990421

    专利权的终止

  • 2003-11-19

    授权

    授权

  • 2001-05-16

    实质审查请求的生效

    实质审查请求的生效

  • 2000-10-25

    公开

    公开

说明书

本发明提出了一种字体和笔迹识别的新方法,它不需要进行局部分析。这种方法的要点在于使用纹理分析提取全局的特征。一块印刷体文字或笔迹可以看作包含某种特定的纹理。空间的频率和相位代表了这些纹理的特征。本方法就是根据这些纹理特征来识别字体和笔迹的。字体或笔迹识别的问题是一个典型的模式识别问题。

目前的字体、笔迹识别方法大多需要对文档进行分割或进行局部的字符关联部分的分析,也就是基于局部特征的分析,这都是与内容相关的方法。但对于不同的字符集,例如汉语和阿拉伯语,分割的方法并不相同。这种需要字符集先验知识的字符集识别方法效果不够理想。另外,手写字符的分割目前仍然是十分困难的问题,目前还没有很好的解决方法。

目前几乎所有的OCR技术都需要事先知道被识别的字符种类,然后采用相应处理。通常的解决办法是先用人来识别字符的种类,如语种,再选择相应的OCR软件。由于这种系统处理过程需要人为的参与,显然不够理想。又如:近年来,在图象处理和模式识别领域,签名笔迹的识别是一个非常活跃的研究课题。它为保安以及相关领域提供了一种识别签名的方法。但签名的鉴别有一个局限,它要求被识别笔迹的人每次书写相同的内容。但是,在实际应用中,书写固定的内容使签名容易被伪造,而且不适合许多重要的场合。例如,识别手稿的作者,鉴别嫌疑犯的笔迹等等。

本发明的目的在于:为了获得良好的识别效果,利用图像的纹理信息,从整体上进行处理。它应用一种与内容无关的方法,不需要进行字符分割。

本发明的技术要点如图1所示,由以下三部分构成:

1)预处理部分:由于被识别的图象中字符间距,大小有可能存在差异,为了进行纹理分析,首先需要将图象进行归一化,得到一个统一的纹理块。使行距,字符大小达到一致。同时,  如果图象中包含的字符很少,需要将这些字符拼接成一个指定大小的文本块。

2)纹理特征的提取:本发明采用多通道Gabor滤波取得了较好的效果。特定的取样频率和空间的方向的一对奇、偶Gabor滤波器构成一个通道。根据不同的应用对象,选择不同的通道组合。以滤波后图象的均值和方差作为每个通道的特征,这样,N个通道共抽取2N个特征,它们就代表输入图象的纹理特征。

3)分类器的设计采用加权距离的方法,权重为特征的方差倒数。系统的原始输入,即未知字体或笔迹和用来训练的字体或笔迹分别经过预处理得到一块标准化的图象,即纹理图像。然后经过特征提取,即用多通道Gabor滤波器提取这些标准化图象,即纹理图象的特征。加权欧氏距离分类器用来完成模式匹配,识别出字体来。

1.预处理:产生标准化的图象块,以字体识别为例,如图2所示:(1)原始输入图像,其中包含不同大小的空格和字符(2)预处理后的图像

原始的输入是一个二值图像。其中可以包含不同大小的字符和空白。为了进行纹理的特征提取,输入文档需要进行归一化以形成具有统一纹理的图像。图像的预处理部分如图3所示包含四个步骤:1)行与字符的定位

先计算出输入图像在水平方向上的投影曲线。曲线上位于两个相邻峰值之间的波谷对应与两行之间的空白。两个波谷之间的距离对应于一行字的高度。行定位完成以后,对于每一行文字,计算出它在垂直方向上的投影,采用与行定位相似的方法,可以得到每个字符的宽度以及他们之间的间隔。2)字符大小的归一化

在同一幅输入图像中,字符的大小会有很大变化。为了形成统一的纹理,将字符的大小归一化到相同的尺寸。3)空白的归一化

一篇文档的字与字,行与行之间可能包含大小不同的空白,这些空白对与字体识别来说是没有意义的,但是却会影响到图像的纹理,所以必须进行空白部分的归一化。本发明使用水平和垂直投影来实现。4)字块的拼贴

在某些情况下,输入的图像可能是含有很少量的字符以至于无法直接进行纹理分析。因此,从少量的字符产生一块具有统一纹理的图像的过程是很重要的。本发明用拼接的方法把少量的文字拼成所需要大小的纹理图像。

2.特征提取:本发明采用多通道Gabor滤波的方法来提取纹理的特征。1)Gabor滤波器多通道Gabor滤波对于纹理图像的分析具有很好的效果。复数卷积形式的二维Gabor函数具有以下一般表达式:(j=)

     h1(x,y)=g(x,y)·exp[j·2πf(xcosθ+ysinθ)]    (1)

     h2(x,y)=g(x,y)·exp[-j·2πf(xcosθ+ysinθ)]其中 >>g>>(>x>,>y>)>>=>>1>>>2>πσ>>2>>>·>exp>[>->>>>x>2>>+>>y>2>>>>>2>σ>>2>>>]>.>.>.>.>.>>(>2>)>>>s>它们的频域形式是:

    H1(u,v)=exp{-2π2σ2[(u-fcosθ)2+(v-fsinθ)2]}

                                                       (3)

    H2(u,v)=exp{-2π2σ2[(u+fcosθ)2+(v+fsinθ)2]}其中f、θ和σ分别是Gabor函数的空间频率、方向以及空间常数。本发明使用的是二维Gabor滤波器对,它的数学形式是: >>>h>e>>>(>x>,>y>)>>=>[>>>>h>1>>>(>x>,>y>)>>+>>h>2>>>(>x>,>y>)>>>2>>]>=>g>>(>x>,>y>)>>·>cos>[>2>πf>>(>x>cos>θ>+>y>sin>θ>)>>]>.>.>.>>(>4>)>>>s> >>>h>0>>>(>x>,>y>)>>=>[>>>>h>1>>>(>x>,>y>)>>->>h>2>>>(>x>,>y>)>>>>2>j>>>]>=>g>>(>x>,>y>)>>·>sin>[>2>πf>>(>x>cos>θ>+>y>sin>θ>)>>]>>s>其中he和ho分别表示奇对称和偶对称的Gabor滤波器。(4)所表示的Gabor函数的频率响应是: >>>H>e>>>(>u>,>v>)>>=>>>[>>H>1>>>(>u>,>v>)>>+>>H>2>>>(>u>,>v>)>>]>>2>>>s> >>>H>0>>>(>u>,>v>)>>=>>>[>>H>1>>>(>u>,>v>)>>->>H>2>>>(>u>,>v>)>>]>>>2>j>>>->->->>(>5>)>>>s>

f、θ和σ是本发明所使用的Gabor滤波器中的三个重要的参数,它们的物理意义如图4所示。表示了偶对称的Gabor滤波器的频率响应。从图中可以看出,偶Gabor函数的频率响应是关于坐标原点具有π相位差的。方向参数θ对应与Gauss的相位角。2)滤波器设计

在本发明中,每一对Gabor滤波器对应于一个特定的空间频率和方向。特征提取同时抽取频率信息和方向信息。

由于本发明使用的Gabor滤波器在频域内是成180°相位差的,所以只要在0°-180°内选择相位参数θ即可。本发明选择四个相位参数θ:0°、45°、90°和135°。对于每一个相位角,中心频率按照等对数关系间隔开来。针对不同的问题,中心频率的选择稍有不同。

字体识别时,为了取得良好的效果,对于一幅大小为N×N的图像,中心频率f的选择范围为f≤N/4。具有越小中心频率的滤波器提取的是越大尺度的空间纹理信息。在本发明中,输入图像的大小是128×128,对应于每一个相位角θ,可选取4、8、16、32作为中心频率。Gabor通道的空间常数σ决定了通道的带宽。在本方法中,σ与通道的中心频率成反比。这样总共有16个Gabor通道,如图5所示。这样的选择可以满足字体识别的要求。

笔迹识别时,为了取得良好的效果,对于一幅大小为N×N的图像,中心频率f的选择范围为f≤N/2。具有越小中心频率的滤波器提取的是越大尺度的空间纹理信息。实验表明,对应于很低中心频率的滤波器在笔迹鉴别中用处不大,这是因为它们提取空间的变化信息对应的是大尺度的纹理,不能反映出笔迹的特点。

多通道Gabor滤波技术进行特征提取的流程如图6所示:输入的纹理图像经过每个Gabor滤波通道后得到一幅滤波后的图像,对于每幅滤波后的图像,求出其均值和均方差,作为该通道提取的纹理特征。这样,一幅纹理图像中总共提取出32个特征。它们组成了一个32维的特征向量。3.分类器设计

获得特征向量以后,字体或笔迹鉴别的问题就是一个典型的模式匹配识别问题。理论上,可以使用任何一种分类器。本发明采用的是加权欧氏距离分类器来进行识别,如图7所示:

把输入的未知模式的样本的特征向量同训练好的已知模式的特征向量相比较,输入的未知模式样本被分作第k类模式当且仅当它的特征向量与第k类模式的特征向量的加权欧氏距离最小: >>WED>>(>k>)>>=>>Σ>>i>=>1>>N>>>>>(>>f>i>>-sup>>f>i>>(>k>)>sup>>)>>2>>>>(sup>>δ>i>>(>k>)>sup>>)>>2>>>.>.>.>>(>6>)>>>s>其中,fi表示未知样本的第i个特征,和分别表示第k类样本的第i个特征的均值和方差,N表示每个样本所提取的特征总数,k的取值范围是k=1,2,...,N。

本发明提出了一种笔迹和字体识别的新方法。与许多现有的方法不同的是,该方法是基于全局纹理特征而且是与内容无关的。本方法的优点在于以下几方面:

1)本方法是一种与内容无关的方法,所以训练样本和识别样本可以是完全不同的,另一方面,它又是与语种无关的,中文、英文,都可以识别。

2)手写字符的分割一直是很困难的问题,目前尚无很好的解决方法,而本方法基于全局纹理分析,不需要进行字符的分割以及字符相关部分的分析,对字体识别也是如此。

3)理论上,任何纹理分析和识别的方法都可以用在这里。

4)对于包含很少文字量的输入,预处理部分可以产生统一的纹理。

5)本方法的识别率很高,对于常用的24种中文字体(6种汉字字型,4种风格),以及32种英文字体(8种字型,4种风格),一共进行了14,000个样本的识别率达到98%以上。

6)本方法不涉及复杂的计算,易于在实际的系统中使用。综上所述,新的方法可以有效的完成笔迹和字体的鉴别,具有良好的应用前景。

附图说明:图1为基于纹理分析的字体、笔迹识别方法框图图2为输入图像和初始化后的图像:(1)原始输入图像,其中包含不同大小的空格和字符(2)预处理后的图像图3为预处理的流程图图4为偶对称Gabor滤波器的频率响应图5为进行字体识别的多通道Gabor滤波器的频率响应(128×128)图6为利用多通道Gabor滤波提取纹理特征的流程图7为加权距离分类器图8为基于纹理分析的字体识别系统图9为六种常用的汉字字形:

(1)仿宋(2)黑体(3)宋体(4)幼圆(5)隶书(6)楷体图10为不同Gabor滤波通道的组合下字形识别的实验结果:图中显示的每种字形的识别率是它在四种风格下识别率的平均。。均值和方差f=4        ×均值和方差f=8均值和方差f=16       △均值和方差f=32* 均值和方差f=4,8,16,32+ 均值f=4,8,16,32·方差f=4,8,16,32图11为基于笔迹的身份鉴别系统图12为原始笔迹输图像和预处理后的图像:(1)原始的输入图像,其中包含不同大小的空格和字符(2)预处理后的图像    

实施例

一块包含文字的图象,可以看作具有特定的纹理,这些不同纹理之间的差别取决于字符的密度以及笔画的方向,它们正代表了字符集的特征。本方法利用的是图像的纹理信息,从整体上进行处理,采用标准的纹理分析。这是一种不需要进行字符分割的的方法。实施中,可取得超过95%的正确率。

该算法的基本步骤如下:

1)预处理部分:由于被识别的图象中字符间距,大小有可能存在差异,为了进行纹理分析,首先需要将图象进行归一化,得到一个统一的纹理块。使行距,字符大小达到一致。同时如果图象中包含的字符很少,需要将这些字符拼接成一个指定大小的文本块。这样做的好处在于,对于含有很少字符的也可以进行处理。

2)纹理特征的抽取:原则上任何纹理特征抽取方法都可以完成对预处理后图象的特征提取(比如多通道Gabor滤波方法,灰度相关矩阵(GSCM)方法等)。本发明用多通道Gabor滤波取得了较好的效果。

多通道Gabor滤波器抽取纹理特征:特定的取样频率和空间的方向的一对奇、偶Gabor滤波器构成一个通道。根据不同的应用对象,本算法选择多个频率和多个方向进行滤波。以滤波后图象的均值和方差作为每个通道提取的特征,它们就代表了输入图像的纹理特征。

3)分类器的设计:原则上任何分类器均可以对抽取的特征向量进行识别。具体地,本发明采用加权距离的方法设计分类器,权重为特征的方差倒数。实施例1:文档自动处理系统

基于本发明的一种文档自动处理系统如图8所示,普通文档首先通过扫描仪变成数字图像输入到计算机,然后调用本发明的方法识别出文档所使用的语言种类和字体,再根据识别的结果自动选择相应的OCR软件,识别出文档的内容,最后按识别的字体、语种和文档的内容进行自动排版,形成电子文档。

用本发明对于6种常用的汉字字形(楷体、宋体、仿宋、黑体和幼圆)组合上它们的4种风格(标准、粗体、斜体和粗斜体),一共24种字体进行了测试。首先将包含某种字体的文字扫描成黑白图像输入到计算机中,然后经过预处理形成640×640的统一纹理图像。再把该图像分成25个互不重叠的大小为128×128的子图像。对于每种字体,使用25个样本训练,另外250个不同的样本进行测试。如图9给出了6种常用的汉字字形。以图8所示的程序进行识别:1)滤波通道的选择

为了研究Gabor通道中心频率的选取对识别效果的影响,对不同的Gabor通道的组合进行识别。图10表现了Gabor滤波通道的选择和字体识别率的关系。从中可以看出,没有一种单一频率的Gabor通道可以单独完成字体识别的任务。当使用全部32个特征或者全部16个通道(f=4,8,16,32;θ=0°,45°,90°,135°)的输出均值时,获得了最好的识别效果。所以,在下面的实验中,使用了全部的32个特征。2)不同字形和风格的字体识别

当考虑字体的风格时,得到了表1所示的识别结果。对于每种字形(楷体、宋体、仿宋、黑体和幼圆)和风格(标准、粗体、斜体和粗斜体)组合而成的字体,进行了250个样本的测试。

表1字形和字体组合起来的字体识别率

从表中可以看出,所有的黑体和隶书样本都被正确地识别出来。全部样本的总识别率高达98.6%。斜体楷体字的识别率最低,为89.6%。3)字形的混淆表2是字形混淆矩阵。它的每一个元素〖ti,tj〗表示字形ti被划分为形tj的百分比。矩阵的最后一列是每种字形的误识率。该表表明,错误的识别主要是由于仿宋体和楷体之间对称的错误分类造成的。事实上,由图9的例子可以发现,这两种字形看起来确实差别很小。

                 表2字形混淆矩阵本发明可以用于OCR的预处理,它能够解决印刷字体和语种的识别问题,使OCR系统真正实现自动字符识别,自动排版,提高识别的效率和准确率。实施例2:基于笔迹的身份鉴别系统

把本发明用于身份鉴别系统:如图11所示,该系统由扫描仪,计算机和机电装置组成。扫描仪用来把笔迹变成数字图像输入计算机,计算机中的识别方法识别出这些笔迹书写者的身份。然后调用机电装置完成相应的操作,比如身份合法时,可以打开电子门锁,允许进入等等。

实施中用17个人的中文笔迹进行测试。包含400个手写汉字的笔迹在按黑白模式被扫描成一幅二值图像输入计算机。每幅这样的图像被裁成两幅互不重叠的子图像。一幅用来训练,另一幅用来鉴别。每一个子图像又经过预处理形成一幅大小为640×640的具有统一纹理的图像。它被划分成25个互部重叠的大小为128×128的图像块。图12是原始输入图像和预处理后的图像。

用本方法对各种不同的特征组合进行实验,结果如表1所示。

    特征    全部    均值   方差    f=2    f=4    f=8    正确率    (%)    94.5    87.4    91.1    56.0    57.9    62.8
    f=16    f=32    f=64  f=4,  8,  16,  32,  64  f=4,  8,  16,  32  f=8,  16,  32,64  f=2,4  ,  8,  16,  32  f=16  32,  64    63.4    40.3    73.5  95.7  91.4  94.2  88.6  87.4

表1利用多通道Gabor滤波及加权欧氏距离分类器的中文笔迹鉴别方法的实验结果。均值:只使用均值;方差:只使用标准差全部:均值和方差;缺省是全部。f是Gabor通道的中心频率。缺省是f=2,4,8,16,32,64。

从上面的结果可以看出,本方法在使用全部特征时对于中文笔迹的鉴别具有很好的效果。实验表明,某些具有较低中心频率(如f=2)的Gabor通道对于中文笔迹鉴别没有帮助。当中心频率选为f=4,8,16,32,64时,得到了最高的识别率(95.7%)。事实上,仅使用部分通道也可以达到较好的效果,在只使用4个中心频率的通道(f=8,16,32,64)时,可以取得94.2%的识别率。

本发明具有广泛的应用价值,它可用于公安、金融、刑侦、考古,以及其他需要进行身份确认的领域。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号