首页> 中国专利> 中文繁体字识别方法及装置、可读存储介质

中文繁体字识别方法及装置、可读存储介质

摘要

一种中文繁体字识别方法及装置、可读存储介质,所述方法包括:获取待识别的图片;采用预设的繁体字识别神经网络模型对待识别的图片进行识别,并输出识别出的繁体字;繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集;获取样本图片对应的矩阵;将样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将样本图片对应的卷积特征输入至初始神经网络模型的循环网络层,得到繁体字的文字序列特征;将文字序列特征输入至CTC模型中,计算得到损失函数;根据损失函数对循环网络层的参数w进行调整;当训练次数达到预设次数时,得到繁体字识别神经网络模型。上述方案能够提高繁体字识别的准确度和效率。

著录项

  • 公开/公告号CN112163514A

    专利类型发明专利

  • 公开/公告日2021-01-01

    原文格式PDF

  • 申请/专利权人 上海大学;

    申请/专利号CN202011028304.0

  • 申请日2020-09-26

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构31357 上海梵恒知识产权代理事务所(普通合伙);

  • 代理人李文凤

  • 地址 200444 上海市宝山区上大路99号

  • 入库时间 2023-06-19 09:24:30

说明书

技术领域

本发明涉及图像处理技术领域,尤其涉及一种中文繁体字识别方法及装置、可读存储介质。

背景技术

随着技术的发展,在文字识别领域,深度学习已经成为主流。相比于传统的文字识别方法,如模式匹配等,深度学习在精度和速率上得到了大大提升。

然而,现有的深度学习主要应用在简体字识别领域。将深度学习识别方法应用在繁体字识别技术领域中时,由于繁体字相比于简体字的笔画更多,需要关注的特征更多,导致现有的繁体字识别方法的精确度较低,速率较慢。

发明内容

本发明解决的技术问题是现有的繁体字识别方法的精确度较低,速率较慢。

为解决上述技术问题,本发明实施例提供一种中文繁体字识别方法,包括:获取待识别的图片;采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别,并输出识别出的繁体字;所述繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集,所述样本图片中包含有繁体字图片;获取样本图片对应的矩阵;将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征;将所述文字序列特征输入至CTC模型中,计算得到损失函数;根据所述损失函数对所述循环网络层的参数w进行调整;当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。

可选的,所述卷积网络包括7层卷积层和4层池化层,且第一池化层设置在第一卷积层与第二卷积层之间,第二池化层设置在所述第二卷积层与第三卷积层之间,第三池化层设置在所述第四卷积层与第五卷积层之间,第四池化层设置在第六池化层与第七池化层之间;所述将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,得到样本图片对应的卷积特征,包括:将所述样本图片的矩阵输入至所述卷积网络,依次经过7层卷积层和4层池化层后,得到所述样本图片对应的卷积特征;其中,第i卷积层的输出计算公式为:N1=(n–F+2P)/S+1,其中,N1为第i层卷积层的输出,1≤i≤7;第j池化层的输出计算公式为:N2=(n–F)/S+1,其中,N2为第j层池化层的输出,1≤j≤4;F为滤波器的尺寸,P为填充值的大小,S为步长;n为前一层的输入;第j池化层的激活函数为ReLU函数,且ReLU函数表达式如下:f(x)=max(0,N2)。

可选的,所述样本图片的大小为280*32像素。

可选的,所述将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征包括:将所述样本图片对应的卷积特征输入至所述循环网络层;分别计算所述样本图片对应的卷积特征的正向序列特征和反向序列特征,并将所述正向序列特征与所述反向序列特征相加,将得到的和值作为所述样本图片中的繁体字的文字序列特征。

可选的,采用如下公式计算所述卷积特征的正向序列特征:s_t=f(Ux_t+W(s_t-1));采用如下公式计算所述卷积特征的反向序列特征:s_t′=f(U′x_t+W′(s_t+1)′);其中,U为所述卷积特征对应的输入序列的第一权重矩阵,W为前一正向序列特征的权重矩阵,f为所述循环网络层的隐藏层激活函数,x_t为所述卷积特征对应的输入序列,U’为所述卷积特征对应的输入序列的第二权重矩阵,W’为后一反向序列特征的权重矩阵。

可选的,采用如下公式计算所述样本图片中的繁体字的文字序列特征:y=g(Vs_t+V′s_t′);其中,y为样本图片中的繁体字的文字序列特征,V为所述循环网络层的输出层的第一权重矩阵,g为输出层激活函数,V’为所述循环网络层的输出层的第二权重矩阵。

可选的,所述将所述文字序列特征输入至CTC模型中,计算得到损失函数,包括:采用如下公式计算所述损失函数:

为解决上述技术问题,本发明实施例还提供了一种中文繁体字识别装置,包括:获取单元,用于获取待识别的图片;识别单元,用于采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别;输出单元,用于输出识别出的繁体字;所述繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集,所述样本图片中包含有繁体字图片;获取样本图片对应的矩阵;将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征;将所述文字序列特征输入至CTC模型中,计算得到损失函数;根据所述损失函数对所述循环网络层的参数w进行调整;当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述所述的任一种中文繁体字识别方法的步骤。

本发明实施例还提供了另一种中文繁体字识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述所述的任一种中文繁体字识别方法的步骤。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

采用包含多张样本图片的训练样本集训练生成繁体字识别神经网络模型,在训练繁体字神经网络模型的过程中,由卷积网络获取样本图片对应的卷积特征,能够获取繁体字的更多特征;通过循环神经网络模型获取繁体字的文字序列特征,能够提高识别精度。因此,采用训练得到的繁体字识别神经网络模型对待识别的图片进行识别,能够提高中文繁体字识别的速度和精度。

附图说明

图1是本发明实施例一种中文繁体字识别方法的流程图;

图2是本发明实施例一种繁体字识别神经网络模型生成方法的流程图;

图3是本发明实施例一种中文繁体字识别装置的结构示意图。

具体实施方式

如上述背景技术中所述,现有的深度学习主要应用在简体字识别领域。将深度学习识别方法应用在繁体字识别技术领域中时,由于繁体字相比于简体字的笔画更多,需要关注的特征更多,导致现有的繁体字识别方法的精确度较低,速率较慢。

在本发明实施例中,采用包含多张样本图片的训练样本集训练生成繁体字识别神经网络模型,在训练繁体字神经网络模型的过程中,由卷积网络获取样本图片对应的卷积特征,能够获取繁体字的更多特征;通过循环神经网络模型获取繁体字的文字序列特征,能够提高识别精度。因此,采用训练得到的繁体字识别神经网络模型对待识别的图片进行识别,能够提高中文繁体字识别的速度和精度。

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

本发明实施例提供了一种中文繁体字识别方法,参照图1,以下通过具体步骤进行详细说明。

步骤S101,获取待识别的图片。

在具体实施中,需要识别某些图片中是否存在中文繁体字。因此,可以将存在中文繁体字识别需求的图片作为待识别的图片。在进行中文繁体识别时,可以预先获取待识别的图片。

在实际应用中,待识别的图片可以从网络上下载,也可以由本地存储器(如U盘、移动硬盘)等承载。可以理解的是,获取待识别的图片的方式可以存在更多种,本发明实施例对此并不做限定。

在具体实施中,待识别的图片中可以包含有一个或多个中文繁体字,也可能其中并未存在无中文繁体字。

步骤S102,采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别,并输出识别出的繁体字。

在具体实施中,可以预先训练得到繁体字识别神经网络模型。在获取到待识别的图片之后,可以将待识别的图片输入至繁体字识别神经网络模型中,由繁体字识别神经网络模型对输入的待识别图片进行识别。当待识别图片中存在中文繁体字时,繁体字识别神经网络模型可以输出所识别出的中文繁体字;当待识别图片中不存在中文繁体字时,繁体字识别神经网络模型可以输出“不存在中文繁体字”等提示。通过如上输出,可以使得用户获知待识别的图片中是否存在中文繁体字,以及存在的是哪些中文繁体字。

下面对本发明上述实施例中提供的繁体字识别神经网络模型的生成进行详细说明。

参照图2,给出了本发明实施例中的一种繁体字识别神经网络模型生成方法的流程图,以下通过具体步骤进行详细说明。

步骤S201,获取包含多张样本图片的训练样本集。

在具体实施中,用户可以预先获取多张样本图片,以构成训练样本集。训练样本集中的每张样本图片中,都包含有繁体字图片。也就是说,每一张样本图片中都有繁体字存在。

在具体应用中,训练样本集中的样本图片的个数可以根据具体的应用需求来确定。当训练样本集中的样本图片个数较多时,训练得到的繁体字识别神经网络模型所需的时间和计算量较大,但是得到的繁体字识别神经网络模型最终的输出结果精确度较高。反之,当训练样本集中的样本图片个数较少时,训练得到的繁体字识别神经网络模型所需的时间和计算量较小,但是得到的繁体字识别神经网络模型最终的输出结果精确度较差。

因此,可以在识别精确度和模型训练的时间、计算量之间进行均衡。

步骤S202,获取样本图片对应的矩阵。

在本发明实施例中,可以依次获取每一张样本图片对应的矩阵形式。在实际应用中可知,数字图像数据可以采用矩阵来表示。如对于灰度图像,其对应的矩阵形式中,矩阵的行对应图像的高(单位为像素),矩阵的列对应的图像的宽(单位为像素),矩阵的元素对应的图像的像素,矩阵元素的值即为像素的灰度值。

具体的,获取样本图片的矩阵形式的具体运算过程及原理可以参照现有技术,本发明实施例不做赘述。

步骤S203,将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征。

在具体实施中,在获取到样本图片的矩阵之后,可以将样本图片的矩阵输入至初始神经网络模型的卷积网络中,获得该样本图片对应的卷积特征。

在本发明实施例中,初始神经网络模型可以为未经过样本图片训练的神经网路模型,也即在进行样本图片训练所采用的初始的神经网络模型。在具体应用中,该初始神经网络模型的选取可以根据实际的应用场景进行选择。

在具体实施中,初始神经网络模型的卷积网络可以包括7层卷积层和4层池化层,其中:第一池化层设置在第一卷积层与第二卷积层之间,第二池化层设置在第二卷积层与第三卷积层之间,第三池化层设置在第四卷积层与第五卷积层之间,第四池化层设置在第六池化层与第七池化层之间。

也就是说,在卷积网络中,卷积层与池化层之间的排列顺序如下:第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第三池化层、第五卷积层、第六卷积层、第四池化层以及第七池化层。

在具体实施中,池化层夹在连续的卷积层之间,用于压缩数据和参数的量,减少过拟合。对于输入的图像,通过池化层可以对图像进行压缩。图像经过池化层后可以最大限度地保留有用特征,且能够将图像中最重要的特征抽取出来。

将样本图片的矩阵输入至初始神经网络模型的卷积网络,依次经过上述的7层卷积层和4层池化层之后,即可得到样本图片对应的卷积特征。

在本发明实施例中,对应于第i层卷积层,其对应的输出计算公式为:N1=(n–F+2P)/S+1,其中,N1为第i层卷积层的输出,1≤i≤7;对于第j层池化层,其对应的输出计算公式为:N=(n–F)/S+1,其中,N2为第j层池化层的输出,1≤j≤4,S为步长,F为滤波器尺寸,P为填充值的大小。在上述的池化层和卷积层的输出计算公式中,n为前一层的输入。对于第j层池化层,其对应的激活函数为ReLU函数,且ReLU函数表达式如下:f(x)=max(0,N2)。

在本发明实施例中,对于第一层卷积层,其对应的输入为样本图片的矩阵。对于第一层池化层,其对应的输入为第一层卷积层的输出。对于第二层卷积层,其对应的输入为第一层池化层的输出。对于第二层池化层,其对应的输入为第二层卷积层的输出。以此类推,根据上述卷积层与池化层之间的排列顺序,前一层的输出为后一层的输入,最终样本图片的卷积特征经过第七层池化层输出。

在具体实施中,样本图片的大小可以为280*32像素。可以理解的是,在实际应用中,也可以根据具体的应用场景选择对应的样本图片的大小,本发明实施例并不对所选择的样本图片的大小进行限定。

步骤S204,将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中的繁体字的文字序列特征。

在具体实施中,在得到样本图片对应的卷积特征之后,可以将样本图片对应的卷积特征输入至初始神经网络模型的循环网络层。通过初始神经网络模型的循环网络层,获取样本图片中的繁体字的文字序列特征。

在具体实施中,循环网络层可以包括输入层、隐藏层以及输出层。具体而言,将样本图片对应的卷积特征输入至初始神经网络模型的循环网络层,实质上是将样本图片对应的卷积特征输入至循环网络层的输入层。

在具体实施中,在将样本图片对应的卷积特征输入至循环网络层之后,可以分别计算样本图片对应的卷积特征的正向序列特征和反向序列特征。之后,将得到的样本图片的卷积特征的正向序列特征和反向序列特征进行相加运算,将得到的和值作为样本图片中繁体字的文字序列特征。

在具体实施中,可以将卷积网络的输出形式以如下形式输入至初始神经网络模型的循环网络层:[seq_len,batch_size,input_size],也即样本图片的卷积特征是以[seq_len,batch_size,input_size]的形式输入至循环网络层。其中,seq_len为卷积特征的序列长度,batch_size为卷积特征的批次大小,input_size为卷积特征的输入大小。

在本发明实施例中,卷积网络输出的样本图片的卷积特征为[70,1,512],其中的70表征该样本图片的卷积特征的序列长度,1表征该样本图片的卷积特征的批次,512表征该样本图片的卷积特征的大小。

在具体实施中,卷积网络输出的样本图片的卷积特征的输入序列为x_t=(x1,x2,x3,…,xT)。为了防止梯度消失,且利用前后项有用信息帮助预测,可以采用双向LSTM网络作为隐藏层,每层具有256个神经元。

在本发明实施例中,在采用双向LSTM网络作为隐藏层时,可以采用如下公式计算卷积特征的正向序列特征s_t:s_t=f(Ux_t+W(s_t-1));可以采用如下公式计算卷积特征的反向序列特征s_t′:s_t′=f(U′x_t+W′(s_t+1)′),其中,x_t为所述卷积特征对应的输入序列,U为输入序列x_t的第一权重矩阵,U’为输入序列x_t的第二权重矩阵,f为循环网络层的隐藏层激活函数,W为前一正向序列特征的权重矩阵,W’为后一反向序列特征的权重矩阵。

在本发明实施例中,循环网络层的输出层将计算得到的正向序列特征和反向序列特征进行相加,采用如下公式:y=g(Vs_t+V′s_t′),其中,V为输出层的第一权重矩阵,V’为输出层的第二权重矩阵,g为输出层激活函数,V’为所述循环网络层的输出层的第二权重矩阵。

步骤S205,将所述文字序列特征输入至CTC模型中,计算得到损失函数。

在具体实施中,在获取到繁体字的文字序列特征之后,将繁体字的文字序列特征输入到CTC(Connectionist Temporal Classification)模型中,通常输入形式为T*N,T为输入序列x_t中元素的个数,N为循环层网络层输出序列的维度向量。

在本发明实施例中,CTC模型的损失函数可以采用最大似然函数,具体如下:

步骤S206,根据所述损失函数对所述循环网络层的参数w进行调整。

在具体实施中,在得到损失函数后,可以通过得到的损失函数对循环网络层的参数w进行调整。对参数w进行调整,其目的是最小化负对数似然函数:L(x,z)=-lnp(z|x)。

在本发明实施例中,参数w可以为双向LSTM网络的参数。

步骤S207,当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。

在具体实施中,当训练次数达到预设次数时,即可得到繁体字识别神经网络模型。在实际应用中,可以预先设置训练次数对应的阈值,例如预设次数为100。

在具体实施中,当繁体字识别神经网络模型训练完成后,输入待识别的图片X,即可相应得到输出Y,公式为:

由此可见,采用包含多张样本图片的训练样本集训练生成繁体字识别神经网络模型,在训练繁体字神经网络模型的过程中,由卷积网络获取样本图片对应的卷积特征,能够获取繁体字的更多特征;通过循环神经网络模型获取繁体字的文字序列特征,能够提高识别精度。因此,采用训练得到的繁体字识别神经网络模型对待识别的图片进行识别,能够提高中文繁体字识别的速度和精度。

参照图3,给出了本发明实施例中的一种中文繁体字识别装置30,包括:获取单元301、识别单元302以及输出单元303,其中:

获取单元301,用于获取待识别的图片;

识别单元302,用于采用预设的繁体字识别神经网络模型对所述待识别的图片进行识别;

输出单元303,用于输出识别出的繁体字;所述繁体字识别神经网络模型采用如下步骤生成:获取包含多张样本图片的训练样本集,所述样本图片中包含有繁体字图片;获取样本图片对应的矩阵;将所述样本图片的矩阵输入至初始神经网络模型的卷积网络中,获取样本图片对应的卷积特征;将所述样本图片对应的卷积特征输入至所述初始神经网络模型的循环网络层,得到样本图片中繁体字的文字序列特征;将所述文字序列特征输入至CTC模型中,计算得到损失函数;根据所述损失函数对所述循环网络层的参数w进行调整;当训练次数达到预设次数时,得到所述繁体字识别神经网络模型。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述任一实施例所述的中文繁体字识别方法的步骤。

本发明实施例还提供了另一种中文繁体字识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述任一实施例所述的中文繁体字识别方法的步骤。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号