首页> 中国专利> 基于组合分类器的手写识别方法

基于组合分类器的手写识别方法

摘要

本发明公开了一种基于组合分类器的手写汉字识别方法,优点在于对采集到的手写输入汉字进行平滑滤波、噪声剔除、重采样及数据线性归一化处理后,进行离群点剔除处理,剔除那些偏离手写输入汉字的笔段大于设定的阈值的点,有利于笔划的转折点的提取以及笔段的正确输入;建立基本笔段类型及与其相对应的参数特征是为了在采样时可根据手写输入汉字的采样点的时间间隔确定分隔点,进行分割,当某一笔段的笔段方向偏移在设定的角度门限范围内时,自动矫正该笔段;建立了相离连接关系,对一些实际相连而因书写习惯产生相离的,识别后做相连处理,可很好的区分一些较接近的汉字;通过求取Freeman链码,利用整字识别分类器,可方便地识别出手写输入汉字。

著录项

  • 公开/公告号CN101290659A

    专利类型发明专利

  • 公开/公告日2008-10-22

    原文格式PDF

  • 申请/专利号CN200810062115.8

  • 申请日2008-05-29

  • 分类号G06K9/62(20060101);G06K9/36(20060101);G06K9/46(20060101);

  • 代理机构宁波海曙奥圣专利代理事务所;

  • 代理人程晓明

  • 地址 315010 浙江省宁波市科技园区沧海路75号C座

  • 入库时间 2023-12-17 20:53:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-07-23

    未缴年费专利权终止 IPC(主分类):G06K9/62 授权公告日:20110601 终止日期:20130529 申请日:20080529

    专利权的终止

  • 2011-06-01

    授权

    授权

  • 2009-03-11

    实质审查的生效

    实质审查的生效

  • 2008-10-22

    公开

    公开

说明书

技术领域

本发明涉及一种手写识别处理技术,尤其是涉及一种基于组合分类器的手写识别方法。

背景技术

2005年5月25日中国发明专利“手写识别的方法与系统”(公开号为CN 1619583A)公开了一种手写识别的方法和系统,其对于识别包含多个笔画的表意汉字尤其有效,这些笔画通常是根据标准顺序书写的。该方法包括接收书写在电子设备的用户接口上的手写输入汉字的表示,然后从输入汉字中提取方向特征向量和笔划段特征向量,将方向特征向量与模型汉字对比从而提供一个短的侯选汉字列表以及相应的第一置信分数,再将上述与笔划段特征向量进行对比得出第二置信分数,最后通过两个置信分数合并来确定匹配的侯选汉字。通过该方法能够较有效地实现手写输入汉字的识别,但该方法对手写输入汉字进行平滑、噪声删除及大小归一化预处理后,在后续训练识别中可能会产生较大的误差;在最后用于识别的分类器设计上仅考虑了笔划段,对于连笔、书写变形、字形结构复杂等现象没有采取其他技术手段,使得对于处理上述情况时候没有很好的方法;此外,该方法的搜索效率较低。

发明内容

本发明所要解决的技术问题是提供一种搜索效率较高、识别率较高,且对于连笔、书写变形和字形结构复杂的手写输入汉字能够较好地识别的基于组合分类器的手写汉字识别方法。

本发明解决上述技术问题所采用的技术方案为:一种基于组合分类器的手写汉字识别方法,该方法包括以下步骤:第①步,接收书写在手写输入设备的用户接口上的手写输入汉字;第②步,对手写输入汉字进行预处理;第③步,从预处理后的手写输入汉字中提取汉字的特征向量;第④步,将汉字的特征向量通过组合分类器与模型汉字进行对比识别,并确定匹配的候选汉字;在所述的第②步中的预处理中增加离群点剔除处理,使所述的第②步的具体步骤为:第②-1步,对采集到的手写输入汉字的笔段进行平滑滤波、噪声剔除和重采样处理;第②-2步,对经过第②-1步处理后得到的手写输入汉字的笔段进行数据线性归一化处理;第②-3步,对数据线性归一化处理后得到的手写输入汉字进行离群点剔除处理,这样处理有利于拐点,即笔划的转折点的提取以及笔段的正确输入,有效地避免了在后续训练识别中产生误差;所述的第③步中的汉字的特征向量包括笔段特征向量和整字特征向量,所述的笔段特征向量的提取的具体步骤如下:第③-1步,建立基本笔段类型及与基本笔段类型相对应的参数特征;第③-2步,提取预处理后的手写输入汉字的笔段;第③-3步,根据提取的手写输入汉字的笔段与笔段的连接状态建立前后笔段的连接关系,所述的连接关系包括相连、相交和相离,对一些实际应该相连而因人们的书写习惯产生相离的,识别后做相连处理,可以很好的区分一些比较接近的汉字;再根据手写输入汉字的笔段的类型和前后笔段的连接关系去除部分无效笔段,有效的解决了书写变形问题,提高了手写的识别率;第③-4步,根据提取的手写输入汉字的笔段,判断笔段是否有违反书写方法,如果违反了书写方法,则自动删除该笔段,否则,对该笔段不作处理,有效的解决了连笔输入的识别问题;所述的整字特征向量的提取的具体步骤如下:将手写输入汉字的各笔段端点相连后求取Freeman链码,将Freeman链码确定为一组观测序列,Freeman链码是像素与像素之间的方位码,它根据汉字8个方向的编码有效的描绘了汉字特征,不易受噪声干扰。

所述的第②-3步中的所述的离群点为偏离所述的手写输入汉字的笔段大于设定的阈值的点。

所述的第③-1步中的所述的基本笔段类型包括横、竖、撇、捺、提、勾和点,所述的参数特征包括采样点的时间间隔、笔段方向和笔段长度。

所述的第③-3步中的所述的相连包括前笔段起点与后笔段起点相连、前笔段起点与后笔段终点相连、前笔段终点与后笔段起点相连、前笔段终点与后笔段终点相连、前笔段中间点与后笔段起点相连、前笔段起点与后笔段中间点相连、前笔段终点与后笔段中间点相连和前笔段中间点与后笔段终点相连;所述的相交包括中间点与中间点相交;所述的相离包括相邻笔段之间的相离和实际相连书写相离。

所述的第③-4步中的所述的书写方法的具体定义如下:左至右为横,上至下为竖,右至左、上至下为撇,左至右、上至下为捺或点,左至右、下至上为提,右至左、下至上为勾。

所述的第④步中的所述的组合分类器包括笔段识别分类器和整字识别分类器,所述的笔段识别分类器采用三层RBF(Radial Basis Function,径向基函数)神经网络,所述的RBF神经网络中的第一层为输入层、第二层为隐含层和第三层为输出层,所述的输入层实现所述的输入层到的所述的隐含层的非线性映射,所述的输出层实现所述的隐含层到所述的输出层的线性映射;所述的整字识别分类器首先通过收集手写输入汉字的样本,为每个手写输入汉字训练得到HMM(Hidden Markov Model,隐马尔可夫模型)模型;识别时提取手写输入汉字的观测序列;然后利用forward算法,计算该观测序列在字库中每个汉字的HMM模型中的概率,并选取概率最大的汉字确定为识别结果。

与现有技术相比,本发明的优点在于对采集到的手写输入汉字的进行平滑滤波、噪声剔除、重采样处理及数据线性归一化处理后,还进行了离群点剔除处理,剔除了那些偏离手写输入汉字的笔段大于设定的阈值的点,有利于拐点,即笔划的转折点的提取以及笔段的正确输入,有效地避免了在后续训练识别中产生误差;建立基本笔段类型及与基本笔段类型相对应的参数特征是为了在采样时可根据手写输入汉字的采样点的时间间隔确定分隔点,对笔段和笔段进行分割,当某一笔段的笔段方向偏移在设定的角度门限范围内时,自动矫正该笔段,笔段长度主要用于区分捺和点;连接关系除了常见的相连和相交之外,还建立了相离连接关系,对一些实际应该相连而因人们的书写习惯产生相离的,识别后做相连处理,可以很好的区分一些比较接近的汉字;通过求取Freeman链码,利用整字识别分类器,可方便地识别出手写输入汉字,Freeman链码是像素与像素之间的方位码,它利用8个方向的编码较好的描述了一个汉字的轨迹特征,用Freeman链码作为HMM模型的观测序列,能有效的克服噪声,识别效果良好,HMM模型是用参数表示的用于描述随机过程统计特性的概率模型,适用范围很广,在图像处理上有很大的应用前景,采用HMM模型训练样本对连笔等识别准确率比较高。

附图说明

图1为本发明方法的流程图;

图2为用户手写输入的汉字示意图;

图3为图2所示的汉字经本发明的线性归一化处理后的结果示意图;

图4为图3所示的汉字经本发明的离群点剔除处理后的结果示意图;

图5为通过书写方向划分的基本笔段类型的示意图;

图6为笔段方向及笔段方向门限的界定示意图;

图7为图4所示的汉字去除无效笔段后的结果示意图;

图8为图4所示的汉字删除违反书写方法的笔段后的结果示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1所示,基于组合分类器的手写汉字识别方法,该方法包括以下步骤:

第①步,接收书写在手写输入设备的用户接口上的手写输入汉字,例如用户输入“土”字,如图2所示;本发明采集的手写输入汉字的输入信息包括两个方面:一方面为用户书写轨迹的实时坐标信息,该信息主要用于解决后续的连笔问题;另一方面为生成的用户书写的汉字的整个的图像信息,该信息主要用于解决笔顺问题;

本实施例中手写输入设备可采用平板式图形数字化仪,也可采用其他输入设备;

第②步,对手写输入汉字进行预处理,具体步骤为:第②-1步,对采集到的手写输入汉字的笔段进行平滑滤波、噪声剔除和重采样处理;人们使用手写输入设备进行书写汉字时,由于书写的速度不是非常均匀,引起输入汉字的笔段坐标与时间的关系呈非线性关系,为使得笔段坐标与时间之间为线性关系,必须对采集到的笔段进行平滑滤波处理;由于手写输入设备含有硬件噪声,且因采样精度较高,使得坐标序列中包含了大量的冗余点,为使采样点更为均匀,需进行噪声剔除和重采样处理;第②-2步,对经过第②-1步处理后得到的手写输入汉字的笔段进行数据线性归一化处理;为使后续提取的特征向量具有更好的辨别特性,需对笔段进行线性或非线性归一化处理,但由于非线性归一化处理运算量较大,且过程较繁琐,将导致识别速度下降,所以本发明采用了线性归一化处理,把192×192网格归一化成16×16网格,图2所示的手写输入汉字“土”线性归一化处理后如图3所示;第②-3步,对数据线性归一化处理后得到的手写输入汉字进行离群点剔除处理;离群点为偏离手写输入汉字的笔段大于设定的阈值的点,也可称为杂点,如从原输入框192×192的矩阵中将笔段轨迹信息归一化后,映射到16×16的矩阵中,由于原输入框比较大,书写的字轨迹较为平滑,而映射到16×16的矩阵上的点所描述的轨迹就不是很平滑了,出现参差不齐的现象,比如笔段“捺”,在16×16的矩阵中可能会变成分层次的小短横,此时,只需保留各个小短横中一点来构造平滑的“捺”即可,而多余的那些点称之为杂点;当离群点较少时,一般少于5个时可采用直接剔除的方法,当离群点较多时,一个笔段会形成一小段一小段,这时可以采用选取每小段的均值来重新定义,从而实现离群点的剔除;设定的阈值通常为标准差的整数倍;

从图3中画圈部分可以看出在同一方向上的点均少于三个,此时对同一方向上的点只取第一个点,同时剔除其他几个点(离群点),将这些离群点剔除后的“土”字如图4所示;

第③步,从预处理后的手写输入汉字中提取汉字的特征向量,汉字的特征向量包括笔段特征向量和整字特征向量;笔段特征向量的提取的具体步骤为:第③-1步,建立基本笔段类型,其包括横、竖、撇、捺、提、勾和点,通过书写方向划分基本笔段类型,如图5所示;建立与基本笔段类型相对应的参数特征,包括采样点的时间间隔、笔段方向和笔段长度,设定采样点时间间隔门限为T、笔段方向门限为D及笔段长度门限为L,图6给出了笔段方向及笔段方向门限的界定,根据基本笔段类型和笔段长度可以确定手写输入汉字的笔段,还可以去除一些冗余的无效笔段;第③-2步,根据采样点时间间隔门限T、笔段方向门限D及笔段长度门限L确定预处理后的手写输入汉字的笔段的类型并提取出笔段,当相邻(两连续)采样点的时间间隔大于设定的采样点时间间隔门限T时,则确定为前后两个笔段的分割点,对前后两个笔段进行分割;当笔段方向偏移在设定的笔段方向门限这个角度范围内时,可自动矫正该笔段;笔段长度门限的设定是为了较好地区别较长的捺和较短的点;第③-3步,根据提取的手写输入汉字的笔段与笔段的连接状态建立连接关系,连接关系有相连、相交和相离三种,相连包括前笔段起点与后笔段起点相连、前笔段起点与后笔段终点相连、前笔段终点与后笔段起点相连、前笔段终点与后笔段终点相连、前笔段中间点与后笔段起点相连、前笔段起点与后笔段中间点相连、前笔段终点与后笔段中间点相连和前笔段中间点与后笔段终点相连;相交包括中间点与中间点相交;相离不仅仅是相邻笔段之间的相离,也包括实际位置上靠近的笔段,也就是实际应该相连而因人们的书写习惯产生的相离,对于这种实际相连书写相离的笔段识别后作相连处理,例如“天”字,一般人们书写时,撇与上面的横之间留有一定的距离,本发明可根据撇的起始点与上面的横的位置关系来判别,实验表明本发明能够很好地区别如像“天”和“夫”比较相近的汉字;根据笔段的类型和前后笔段的连接关系也可去除一部分无效的笔段,如图4所示,上面画圈部分为无效笔段,在对分解后的笔段信息分析后可以去除,去除无效笔段后如图7所示;第③-4步,根据提取的手写输入汉字的笔段,判断笔段是否有违反书写方法,如果违反了书写方法,则自动删除该笔段,否则,对该笔段不作处理;书写方法的具体定义为:左至右为横,上至下为竖,右至左、上至下为撇,左至右、上至下为捺或点,左至右、下至上为提,右至左、下至上为勾;如图4所示,下面画圈部分笔段在已经确定是横的情况下,判断该笔段是从右向左的,违反了横的书写方法,将该笔段自动删除,结果如图8所示;

整字特征向量的提取的具体步骤为:将手写输入汉字的各笔段端点相连后求取Freeman链码,将Freeman链码确定为一组观测序列,例如上述用户输入的“土”字,取Freeman链码后得到链码为:1111111187766643333333333334445551111111111;Freeman链码能有效的克服噪声,识别效果良好;通常Freeman链码是连接边界像素和像素线段的方向编码数,但这样Freeman链码会很长,并对噪声很敏感,对所在边界本发明采用多维网络处理方法,在16×16网格中,将网格的像素点之间的方向特性作为基本测量单元,采用8个方向的编码描述一个汉字的轨迹特征,这样的编码所反映的字形特性是最接近于手写汉字的;

第④步,将笔段特征向量和整字特征向量通过组合分类器与模型汉字进行对比识别,并确定匹配的候选汉字;组合分类器包括笔段识别分类器和整字识别分类器,笔段识别分类器采用三层RBF神经网络,RBF神经网络表达能力强、训练算法收敛快、学习速度快、局部逼近及使用参数少,RBF神经网络中的第一层为输入层、第二层为隐含层和第三层为输出层,输入层实现输入层到的隐含层的非线性映射,输出层实现隐含层到输出层的线性映射;输入层的节点数由抽取的特征数决定,本发明中特征包括7种基本笔段类型(横、竖、撇、捺、提、勾和点)、采样点时间间隔门限T、笔段方向门限D、笔段长度门限L、8种相连连接关系、1种相交连接关系和2种相离连接关系共21个特征;隐含层的节点数采用径向基函数确定,其中径向基函数可表示为:

αi(x)=exp[||X-ci||22σi2]i=1,2,...,m,

式中αi(x)——第i个隐含层节点的输出;

X——输入样本,X=(x1,x2...xn)T

ci——第i个隐含层节点的高斯核函数的中心且与输入X有相同的维数;

σi——第i个隐含层节点的变量;

m——隐含层节点的个数;

径向基函数仅在输入空间中的一个很小的区域取非零值,但其有不同的中心和宽度,当输入信号靠近径向基函数的中央范围时,隐含层的节点会产生较大的输出,能在更高层次上实现神经系统;

整字识别分类器首先通过收集手写输入汉字的样本,为每个手写输入汉字训练得到HMM模型,所有汉字的模型构成字库,识别时提取输入手写汉字的观测序列即freeman链码,再利用forward算法计算该观测序列在字库中每个汉字的HMM模型中的概率,并选取概率最大的汉字确定为识别结果。其中forward算法就是评估给定观测序列和模型之间的匹配程度,由此可以用来在一系列候选对象中选取最佳的匹配;HMM模型是用参数表示的用于描述随机过程统计特性的概率模型,适用范围很广,在图像处理上有很大的应用前景,采用HMM模型训练样本对连笔、书写变形、字形结构复杂的汉字的识别准确率比较高。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号