首页> 中国专利> 基于全卷积递归网络的手写汉字文本识别方法

基于全卷积递归网络的手写汉字文本识别方法

摘要

本发明公开了基于全卷积递归网络的手写汉字文本识别方法,包括步骤路径积分层将联机的笔迹信息转化为相应的脱机特征图片;全卷积网络提取脱机特征图片的高维抽象表达,生成相应的响应图;多层双向递归网络将所述响应图的每一帧完成识别并输出一个关于字符集的概率分布;转录层使用前向计算和反向梯度传播的动态规划算法,使得整个手写汉字文本识别模型可以直接基于文本数据进行训练;和语言模型后处理。本发明对于原联机笔迹信息具有不同程度的刻画能力;在没有对手写汉字文本预分割的情况下,可以接受任意长度的输入序列,并输出一个对应的输出序列;整体性能强;采用集束搜索方法嵌入语言模型解码全卷积递归网络,进一步提高了识别率。

著录项

  • 公开/公告号CN106570456A

    专利类型发明专利

  • 公开/公告日2017-04-19

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201610895498.1

  • 发明设计人 马景法;谢泽澄;金连文;

    申请日2016-10-13

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06K9/68(20060101);G06N3/08(20060101);

  • 代理机构广东广信君达律师事务所;

  • 代理人杨晓松

  • 地址 510640 广东省广州市天河区五山路381号华南理工大学

  • 入库时间 2023-06-19 01:56:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-09

    授权

    授权

  • 2017-05-17

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20161013

    实质审查的生效

  • 2017-04-19

    公开

    公开

说明书

技术领域

本发明涉及对计算机用户手写输入计算机的联机手写文档进行手写汉字文本识别的技术,尤其涉及基于全卷积递归网络的手写汉字文本识别方法。

背景技术

手写汉字识别在当今世界是一个有挑战性的问题,并受到很多研究员紧密的关注。很大的字符集、多样性的手写风格和字符连接问题是手写汉字中遇到的主要问题。近年来,手写汉字识别取得了一定的突破,但基于过分割的传统方法依旧没能克服纠正字符错误分割的问题,识别的准确率不高。

发明内容

为克服现有技术的不足,在没有预分割的情况下处理一个任意长度的输入序列,输出相应标签序列,本发明提出基于全卷积递归网络的手写汉字文本识别方法。

本发明的技术方案是这样实现的,基于全卷积递归网络的手写汉字文本识别方法,包括步骤

S1:路径积分层将联机的笔记信息转化为相应的脱机特征图片;

S2:全卷积网络提取所述脱机特征图片的高维抽象表达,生成相应的响应图;

S3:多层双向递归网络将所述响应图的每一帧完成识别并输出一个关于字符集的概率分布;

S4:转录层使用前向计算和反向梯度传播的动态规划算法,使得整个模型可以直接基于文本数据进行训练;

S5:语言模型后处理。

进一步地,步骤S1进一步包括步骤

S11:对联机手写文本数据的笔迹计算一组路径积分特征;

S12:将每组路径积分特征按照相同维度的特征重组成不同的路径积分特征图。

更进一步地,步骤S11包括步骤:假设一个有限长度笔画段P是二维空间的路径,轨迹移动的时间满足,(0<τ1<...<τk<T),然后计算P的k阶路径积分特征;当P是直线时,用Δ0,T表示路径位移,可以通过分段计算求得;计算n阶路径积分特征,就是把路径积分特征做k阶截断,得到的特征集为得到2n+1维的路径积分特征;步骤S12包括步骤:将路径积分特征的每一个维度单独变成一张路径积分特征图。

进一步地,步骤S2中以任意大小的图片作为输入,并输出相应大小的响应图,该响应图中的每个位置对应着原图的一个接收域,且全卷积网络的层与层之间共享卷积响应图。

进一步地,步骤S3中采用采用LSTM为全卷积网络输出的特征序列建模。

进一步地,步骤S4中采用CTC作为转录层。

进一步地,步骤S5包括步骤

S51:通过综合考虑词法限制、语言的先验知识和语言建模纠正一些显而易见的语义错误;

S52:采用集束搜索方式在后处理中嵌入语言模型,提高识别率。

本发明的有益效果在于,与现有技术相比,本发明应用路径积分层将联机的笔迹信息转化成相应的脱机特征图片,并尽可能保持联机信息;路径积分层具有灵活的特性,可以根据具体的情况提取不同阶数的识别特征,从而对于原来的联机笔迹信息具有不同程度的刻画能力;本发明在没有对手写汉字文本预分割的情况下,可以接受任意长度的输入序列,并输出一个对应的输出序列;本发明是端到端可训练的。各组成部件共同训练以相互适应提高框架的整体性能;本发明采用集束搜索方法嵌入语言模型解码全卷积递归网络,进一步提高识别率。

附图说明

图1是本发明基于全卷积递归网络的手写汉字文本识别方法流程图。

图2是本发明方法流程示意图。

图3是本发明一个实施例的路径积分特征的可视化图形。

图4是本发明一个实施例的连续帧在全卷积网络的输出特征序列对应原始数据的重叠接收域图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

基于全卷积递归网络的端到端的手写汉字文本识别方法,整个系统包含五个组成部分:A、路径积分层;B、全卷积网络;C、多层双向递归网络;D、转录层;E、语言模型后处理。

所述组成部分A的作用为:对联机手写文本数据的笔迹计算一组路径积分特征,和将每组路径积分特征按照相同维度的特征重组成不同的路径积分特征图;

所述组成部分B全卷积网络由卷积层和池化层组成,前面四个卷积层后各跟一个池化层,最后是两个卷积层。全卷积网络以任意大小的图片作为输入,并输出相应大小的响应图,该响应图中的每个位置对应着原图的一个“接收域”。全卷积网络通过层与层之间共享卷积响应图使推断和反向传播更有效率。

其中,全卷积网路包括6个卷积层,其中前4个卷积层后跟一个池化层,卷积核的数目从底层到顶层依次是64、128、256、256、512和512。为了使训练快速收敛和防止过拟合,我们在最后一层卷积层后应用了批正则化(BN)。

所述组成部分C为了捕获长期的依赖信息,采用LSTM为全卷积网络输出的特征序列建模;LSTM可以从一个特征序列中捕获上下文信息,这比处理单个字符更有效和更值得信赖;LSTM不局限于固定长度的输入和输出,这使得它可以处理任意长度的序列数据;LSTM可以和全卷积网络连接成一个统一的网络统一训练,这使两者都受益,提高整体性能;多层双向递归网络采用BLSTM,可以从两个输入方向学习更大范围的上下文信息,性能远胜于单向网络;多层双向递归网络是多个BLSTM的叠加,它能为下一步的转录捕获更高阶的抽象信息;全连接层嵌在多层双向递归网络和转录层之间以加强分类。

所述组成部分D为了避免文本分割的难度,采用CTC(connectionist temporalclassification)作为转录层;CTC允许全卷积网络和LSTM在输入图像和他们对应的标签序列没有先验对其的情况下连续训练。

所述组成部分E通过综合考虑词法限制、语言的先验知识和语言建模纠正一些显而易见的语义错误,提高识别率;采用集束搜索方式在后处理中嵌入语言模型,提高识别率。

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的具体实施方式不局限于此。

本发明主要解决联机手写汉字文本书识别及其具体实现,不同于传统的过分依赖于文本分割的方法,全卷积递归网络直接用联机手写汉字文本数据训练,并根据笔记识别出相应的字符序列。

参见图1和图2,本发明包括以下步骤:S1、路径积分层提取笔迹的识别特征;S2、全卷积网络提取输入图片的高维抽象表达;S3、多层双向递归网络识别并输出关于字符集的概率分布;S4、转录层使得整个模型可以直接基于文本行数据进行训练,而且避免了预切分操作;和S5:语言模型后处理。具体来说,首先将笔记信息输入到路径积分层转化成相应的脱机特征图片,并尽可能保留联机信息。之后将得到的特征图片输入到全卷积网络,提取特征图片的高维抽象表达,得到宽度为T,高度为1的响应图(多个通道),响应图中的每一帧特征向量,实际上是原图的一个接收域的描述。然后将全卷积网络输出的响应图输入到多层双向递归网络,该递归网络在接收到输入序列的每一帧时,都会完成识别并输出一个关于字符集的概率分布。也即,若输入序列长度为T,则多层双向递归网络会按时间先后,输出T个关于字符集的概率分布。多层双向递归网络可以基于上下文信息来对输入的每一帧进行识别,从而避免了一些混淆情况。另一方面,它还可以接收不同长度的输入序列,并和全卷积网络组合进行端到端的训练,以进一步提高识别率。接着,把递归网络输出的T个关于字符集的概率分布输入到转录层,转录层借助一套高效的实现前向计算和反向梯度传播的动态规划算法,使得整个模型可以直接基于文本数据进行训练,而且避免了预切分操作。最后,把识别结果结合语言模型进行后期处理,从而进一步提高识别率。

以下分别对本发明的各主要步骤进行详细说明:

请参见图4,步骤S1计算路径积分特征图

计算路径积分特征是用路径积分特征的方法。假设一个有限长度笔画段P是二维空间的路径,轨迹移动的时间,并且0<τ1<...<τk<T,那么P的k阶路径积分特征就是:

当P是直线时,用Δ0,T表示路径位移,分段计算:

计算n阶路径积分特征,得到的特征集表示为

得到的包括路径本身的路径积分特征的维数为2n+1

在上面步骤中生成了积分的多维路径积分特征,每一个维度可以对应成一副路径积分特征图。生成路径积分示意图如图3所示。

本发明中,设置的全卷积网络包含卷积层和最大池化层;其结构最先为4个卷积层,每个卷积层后面有一个最大池化层(MP);这四个卷积层的卷积核大小为3*3,步长为1*1,padding大小为0*1;四个池化层卷积核大小为2*2,步长为2*2。四层卷积和池化的结构后跟两个卷积层,第一层的卷积核大小为3*1,步长为3*1,padding大小为0*0;第二层卷积核大小为2*2,步长为1*1,padding大小为0*0。最后四层卷积层后还分别跟了一层BN(batchnormalization)层使训练加速收敛和防止过拟合。

请参见图4,全卷积网络接收任意长度的输入图片,输出相应大小的特征响应图。卷积网络的基本操作,如卷积、池化和激活函数具有平移不变性。因此,该响应图中的每个位置对应着原图的一个“接收域”。一个“接收域”是输入图片上的一个矩形区域,这个矩形区域可以被全卷积网络输出的一个高维特征序列代表。相邻层和坐标之间的关系可以用下面的公式表示:

rl=(rl+1-1)×ml+kl(4)

k是卷积核的大小,m是步长,p是该层padding的大小。在全卷积网络中通过从最后的响应图到原始图片递归调用公式(4)到相邻的层可以得到输出的特征序列对应到输入图片中接收域的大小和中心坐标位置。

多层双向递归网络每次接收一帧特征序列,LSTM都会更新它的隐藏状态,并为进一步转录预测一个概率分布。LSTM可以从一个特征序列中捕获上下文信息,这比处理单个字符更有效和更值得信赖;LSTM不局限于固定长度的输入和输出,这使得它可以处理任意长度的序列数据;LSTM可以和全卷积网络连接成一个统一的网络统一训练,这使两者都受益,提高整体性能;多层双向递归网络采用BLSTM,可以从两个输入方向学习更大范围的上下文信息,性能远胜于单向网络;

多层双向递归网络是多个BLSTM的叠加,它能为下一步的转录捕获更高阶的抽象信息;全连接层嵌在多层双向递归网络和转录层之间以加强分类。

步骤S4中,转录层使得整个模型可以直接基于文本行数据进行训练,而且避免了预切分操作

为了避免分割的困难,我们采用CTC作为我们框架的转录层。CTC允许全卷积网络和LSTM在输入图片和相应的标签序列没有先验对齐的情况下连续训练。

我们假设字符集,C包含我们任务中的所有字符,‘blank’代表空的字符。以长度为T的输入序列,作为输入,我们可以得到大量的长度以T标签序列,被称为映射路径,这些映射路径是通过每次给每一步分配一个字符标签,然后把这些标签连接起来形成字符序列。映射路径用表示,它们的概率计算方法如下:

过一个序列到序列的函数,映射路径通过先移除重复的字符标签和空白字符标签,可以被映射到一个转录。例如“apple”可以从“-a-pp-p-l-ee-”或者_a_pp_p_l_ee_’通过规则转换而来。一个转录的总概率可以通过相应的所有映射路径的概率和来计算,如下所示:

借助一套高效的实现前向计算和反向梯度传播的动态规划算法,Transcription层使得整个模型可以直接基于文本行数据进行训练,避免了预切分操作。

步骤S5语言模型后处理中:

统计语言模型(以一个长为T的单词序列为例)以下公式表示:

是序列中第t个单词,代表序列。事实上,在单词序列中离得越近的单词依赖性越强。因此,n-gram模型,这种模型基于给定前n个单词的下一个单词的条件概率,经常表用于实践中:

结合词法限制和语言的先验知识,语言模型可以纠正一些显著的词法错误,提高识别率。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号