首页> 中国专利> 基于弱监督的手写文本识别方法、装置、系统及介质

基于弱监督的手写文本识别方法、装置、系统及介质

摘要

本发明公开了基于弱监督的手写文本识别方法、装置、系统及介质,方法包括:获取待识别手写文本图像,将所述待识别手写图像输入至预先构建并完成弱监督训练的手写文本识别模型中;通过已完成弱监督训练的手写文本识别模型对所述待识别手写文本图像进行一维特征图提取处理;对提取得到的一维特征图进行字符识别后输出文本识别结果。本发明实施例通过弱监督方式训练得到的手写文本识别模型进行一维特征图提取后实现手写文本识别,在训练识别过程中无需进行分割过程,有效提高了手写文本识别的速度与效率。

著录项

  • 公开/公告号CN112884034A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 深圳点猫科技有限公司;

    申请/专利号CN202110165460.X

  • 发明设计人 李天驰;孙悦;王帅;

    申请日2021-02-06

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构44395 广东良马律师事务所;

  • 代理人张柯

  • 地址 518000 广东省深圳市前海深港合作区南山街道兴海大道3044号信利康大厦25A26A、27A-D、28A-B、29A-D、30A-B、31A-D

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明涉及文本识别技术领域,尤其涉及基于弱监督的手写文本识别方法、装置、系统及介质。

背景技术

文本的普遍存在使得自动处理各种视觉形式的文本变得越来越必要。文本识别是一项具有大量相关挑战的计算机视觉任务,其中一个主要的挑战是文本识别和分割的耦合性质,具体来说主要是线分割过程,该分割过程对文本识别性能会造成很大的影响,特别对于手写文本具有弯曲形状、不均匀行间、触线和页面撕裂等情况,进一步增加了通过分割识别手写文本的难度。

因此,现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足,本发明的目的在于提供基于弱监督的手写文本识别方法、装置、系统及介质,旨在解决现有技术中先分割再识别的方式导致手写文本识别效率低的问题。

本发明的技术方案如下:

一种基于弱监督的手写文本识别方法,其包括如下步骤:

获取待识别手写文本图像,将所述待识别手写图像输入至预先构建并完成弱监督训练的手写文本识别模型中;

通过已完成弱监督训练的手写文本识别模型对所述待识别手写文本图像进行一维特征图提取处理;

对提取得到的一维特征图进行字符识别后输出文本识别结果。

所述的基于弱监督的手写文本识别方法中,所述获取待识别手写文本图像,将所述待识别手写图像输入至预先构建并完成弱监督训练的手写文本识别模型中之前,还包括:

构建用于识别手写文本的卷积神经网络,所述卷积神经网络包括用于提取一维特征图的特征提取模块;

对所述卷积神经网络进行弱监督训练,直到卷积神经网络的输出值达到预设值时完成弱监督训练得到手写文本识别模型。

所述的基于弱监督的手写文本识别方法中,所述对所述卷积神经网络进行弱监督训练,直到卷积神经网络的输出值达到预设值时完成弱监督训练得到手写文本识别模型,包括:

获取无真实标注的训练样本集并将所述训练样本集输入至所述卷积神经网络进行弱监督训练;

通过预设损失函数对所述卷积神经网络的输出值进行误差评价;

根据误差评价结果调节所述卷积神经网络的权重参数,直到所述卷积神经网络的输出值达到预设值时完成弱监督训练得到手写文本识别模型。

所述的基于弱监督的手写文本识别方法中,所述损失函数为CTC损失函数。

所述的基于弱监督的手写文本识别方法中,所述通过已完成弱监督训练的手写文本识别模型对所述待识别手写文本图像进行一维特征图提取处理,具体包括:

通过所述特征提取模块将所述待识别手写文本图像中的多行图像特征展开为单行图像特征后拼接得到一维特征图。

所述的基于弱监督的手写文本识别方法中,所述对提取得到的一维特征图进行字符识别后输出文本识别结果,具体包括:

对提取得到的一维特征图进行字符匹配,获取与所述一维特征图匹配度最高的字符匹配结果后输出文本识别结果。

所述的基于弱监督的手写文本识别方法中,所述一维特征图的长度大于等于训练样本集中最大字符串长度。

本发明又一实施例还提供了一种基于弱监督的手写文本识别装置,所述装置包括:

获取模块,用于获取待识别手写文本图像,将所述待识别手写图像输入至预先构建并完成弱监督训练的手写文本识别模型中;

特征提取模块,用于通过已完成弱监督训练的手写文本识别模型对所述待识别手写文本图像进行一维特征图提取处理;

识别模块,用于对提取得到的一维特征图进行字符识别后输出文本识别结果。

本发明又一实施例还提供了一种基于弱监督的手写文本识别系统,所述系统包括至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于弱监督的手写文本识别方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的基于弱监督的手写文本识别方法。

本发明的另一实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,使所述处理器执行上述的基于弱监督的手写文本识别方法。

有益效果:本发明公开了基于弱监督的手写文本识别方法、装置、系统及介质,相比于现有技术,本发明实施例通过弱监督方式训练得到的手写文本识别模型进行一维特征图提取后实现手写文本识别,在训练识别过程中无需进行分割过程,有效提高了手写文本识别的速度与效率。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1为本发明提供的基于弱监督的手写文本识别方法较佳实施例的流程图;

图2为本发明提供的基于弱监督的手写文本识别方法较佳实施例中特征提取模块的网络架构图;

图3为本发明提供的基于弱监督的手写文本识别装置较佳实施例的功能模块示意图;

图4为本发明提供的基于弱监督的手写文本识别系统较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

请参阅图1,图1为本发明提供的基于弱监督的手写文本识别方法较佳实施例的流程图。如图1所示,其包括如下步骤:

S100、获取待识别手写文本图像,将所述待识别手写图像输入至预先构建并完成弱监督训练的手写文本识别模型中;

S200、通过已完成弱监督训练的手写文本识别模型对所述待识别手写文本图像进行一维特征图提取处理;

S300、对提取得到的一维特征图进行字符识别后输出文本识别结果。

本实施例中,在进行手写文本识别时先获取待识别手写文本图像,所述待识别手写文本图像可以包含有多行文字,将所述待识别手写图像输入至预先构建并完成弱监督训练的手写文本识别模型中,由于对手写文本识别而言,很难获取足够量的高准确度的标注数据进行监督学习,因此本实施例中通过弱监督训练得到手写文本识别模型可同时兼顾模型训练成本与识别准确性。通过该手写文本识别模型对包含有多行文字的待识别手写文本图像进行一维特征图提取处理,在此过程中无需对待识别手写文本图像进行分割处理,而是直接将二维的文本图像转换提取得到一维特征图,进一步对提取得到的一维特征图进行字符识别后输出文本识别结果,由于在识别过程中无需按传统的先分割后识别方式,而是以行为单位直接将多行文字的二维图像转换为单行的一维特征图进行字符识别,无需文本线分割,尤其适合形状、行距不规则的手写文本识别,大大提高了文本识别的速度。

进一步地,所述获取待识别手写文本图像,将所述待识别手写图像输入至预先构建并完成弱监督训练的手写文本识别模型中之前,还包括:

构建用于识别手写文本的卷积神经网络,所述卷积神经网络包括用于提取一维特征图的特征提取模块;

对所述卷积神经网络进行弱监督训练,直到卷积神经网络的输出值达到预设值时完成弱监督训练得到手写文本识别模型。

本实施例中,在进行文本识别前需要先构建并训练得到所述手写文本识别模型,因此先构建一用于识别手写文本的卷积神经网络,具体实施时,所述卷积神经网络的主干网络可采用例如ResNet-26、ResNet-66、VGG、GTR-8或GTR-12等现有的神经网络结构,在所述卷积神经网络中设置一用于提取一维特征图的特征提取模块,即所述特征提取模块可添加至任何现有的基于卷积神经网络的文本线识别器中以实现本实施例中快速完整的文本识别效果。在完成卷积神经网络的构建后则对所述卷积神经网络进行弱监督训练,当卷积神经网络的输出值达到预设值时则完成弱监督训练得到手写文本识别模型,本实施例中采用弱监督学习训练的方式得到手写文本识别模型,在不影响识别精确度的同时也降低了对标注数据的要求,降低训练成本。

具体地,弱监督学习是机器学习领域中的一个分支,与传统的监督学习相比,其使用有限的、含有噪声的或者标注不准确的数据来进行模型参数的训练,当使用弱监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性。

弱监督学习按照数据的标注程度包括不完全监督、不确切监督、不准确监督等多种实现方式,本申请实施例不做限定。其中,不完全监督:若样本中存在部分数据具有标注信息,而剩余部分则不具备有效的标注,这种为不完全监督。进一步,如果对于选定的未标注数据,存在一个系统能够给出数据的正确标签,即具备查询功能,则为不完全监督中的主动学习,其余的可划分为半监督学习的范围。在半监督学习中,对于数据的分布存在两种基本假设:聚类假设和流行假设,前者假设样本空间存在内在的聚类结构,因此同一聚类中样本的标签应该相同;而后者则认为数据分布在一个流行上,在流行上相近的样本具有相似的预测结果。

不确切监督:当数据只具有粗粒度的标签时,被称为不确切监督。例如在人脸识别任务中,只对样本中是否含有人脸进行说明,但不提供人脸的具体位置,便是一种典型的不确切监督的问题。

不准确监督:即样本虽有具有标签,但并不准确。造成这种现象的原因有很多,例如标注难度大、标注人员自身水平有限等。

具体可根据实际场景进行选择,本申请实施例仅以不完全监督为例进行说明。

进一步地,所述对所述卷积神经网络进行弱监督训练,直到卷积神经网络的输出值达到预设值时完成弱监督训练得到手写文本识别模型,包括:

获取无真实标注的训练样本集并将所述训练样本集输入至所述卷积神经网络进行弱监督训练;

通过预设损失函数对所述卷积神经网络的输出值进行误差评价;

根据误差评价结果调节所述卷积神经网络的权重参数,直到所述卷积神经网络的输出值达到预设值时完成弱监督训练得到手写文本识别模型。

本实施例中,具体的弱监督训练过程为先获取无真实标注的训练样本集,所述训练样本集可采用各类公开使用的手写文本数据集,本发明对此不作限定,由于传统的强监督训练需要通过高置信度的标注数据来进行学习训练,而对于手写文本识别来说,很难获取足够多且置信度足够高的手写文本标注数据作为训练样本,本实施例中采用无需标注数据的弱监督训练方式,在训练期间不给予任何人工标注的数据,将无真实标注的训练样本集输入至所述卷积神经网络中进行学习训练,通过预设损失函数对所述卷积神经网络的输出值进行误差评价,根据误差评价结果反向传播调节所述卷积神经网络的权重参数,直到所述卷积神经网络的输出值达到预设值,即可得到训练完成后的手写文本识别模型,在保证训练效果的同时也节约训练成本。

具体实施时,所述损失函数为CTC损失函数,即通过CTC(Connectionist TemporalClassification)损失函数来驱动训练过程,CTC损失函数允许通过考虑输入的两个一维序列之间所有可能的对齐来对未分段的卷积神经网络进行文本识别训练,进而得到无需进行文本线分割的手写文本识别模型,有效提高手写文本识别的速度和效率。

具体来说,由网络预测得到的序列表示为P,在原始输入信号(图像I)为二维信号时,需要将其转换为一维序列P以满足CTC损失函数的输入要求,为此,可以使用一个简单的简化操作,沿着一个维度(优选为垂直维度)使用简单的归约操作(例如求和)将二维信号展开得到一维信号:

因此,为了在不牺牲识别字符二维排列的能力的情况下满足CTC损失函数的一维输入要求,本实施例中需要进行一维特征图提取处理,所述通过已完成弱监督训练的手写文本识别模型对所述待识别手写文本图像进行一维特征图提取处理,具体包括:

通过所述特征提取模块将所述待识别手写文本图像中的多行图像特征展开为单行图像特征后拼接得到一维特征图。

本实施例中,请参阅图2中特征提取模块的网络结构图,其通过垂直向上扩展,同时水平向下扩展后,可将待识别手写文本图像中的多行图像特征展开为单行图像特征后进行拼接,得到一张又高又窄的一维特征图,即待识别手写文本中的所有行被拼接成一条长行,因此实际上不需要文本线分割,分割和识别都是在同一个单步(单网络前向传递)中完成,而不是在每一行上迭代进行,这样所有的计算都在识别和分割之间共享,整个过程快得多,之后在短维度上平均池化后使用CTC损失函数来驱动训练过程,将全卷积单行识别器转换为多行识别器,实现高效快速的无分割全文页面识别,

具体来说,本实施例是通过一系列缩放操作来扩充传统的范例,这些操作将输入特征图转换为一条单线的形状,这条单线足够长(图中以L2表示)来容纳来自输入图像的所有线条,在缩放操作之后是卷积计算块,扩展方向的改变促使输入图像的每一行被映射到输出垂直维度的不同部分,在这些变化之后,继续使用传统的归约操作,沿着垂直维度执行简单的求和操作得到一维特征图,用CTC损失函数对网络进行训练后得到手写文本识别模型。

进一步地,所述一维特征图的长度大于等于训练样本集中最大字符串长度,也就是说最终提取得到的一维特征图的长度(如图2中L2所示)需要足够长,为了给整个段落/页面留出空间,一维特征图的长度必须至少与训练样本集中最大字符串长度(即最大字符数)相等,优选地,改长度越长越好,因为CTC损失函数需要插入空格来分隔重复的标签,还因为字符在空间范围上差异很大,将每个字符映射到最终矢量中的多个目标帧比转换到一帧更容易,有利于得到更加准确的识别模型。

进一步地,所述对提取得到的一维特征图进行字符识别后输出文本识别结果,具体包括:

对提取得到的一维特征图进行字符匹配,获取与所述一维特征图匹配度最高的字符匹配结果后输出文本识别结果。

本实施例中,在完成了特征提取将待识别手写文本图像展开拼接得到一维特征图后,对提取得到的一维特征图进行字符匹配,获取与所述一维特征图中各个字符匹配度最高的字符匹配结果,将其按序组合后输出最终的文本识别结果,通过提取到的一维特征图进行字符匹配识别,无需单独进行分割和识别,将现有的单行识别器优化成了多行识别器,实现全文本页面的识别输出,大大提高了手写文本的识别速度。

由以上方法实施例可知,本发明提供的基于弱监督的手写文本识别方法通过弱监督方式训练得到的手写文本识别模型进行一维特征图提取后实现手写文本识别,在训练识别过程中无需进行分割过程,有效提高了手写文本识别的速度与效率。

需要说明的是,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。

本发明另一实施例提供一种基于弱监督的手写文本识别装置,如图3所示,装置1包括:

获取模块11,用于获取待识别手写文本图像,将所述待识别手写图像输入至预先构建并完成弱监督训练的手写文本识别模型中;

特征提取模块12,用于通过已完成弱监督训练的手写文本识别模型对所述待识别手写文本图像进行一维特征图提取处理;

识别模块13,用于对提取得到的一维特征图进行字符识别后输出文本识别结果。

所述获取模块11、特征提取模块12和识别模块13依次连接,具体实施方式请参考上述对应的方法实施例,此处不再赘述。

进一步地,所述基于弱监督的手写文本识别装置还包括:

构建模块,用于构建用于识别手写文本的卷积神经网络,所述卷积神经网络包括用于提取一维特征图的特征提取模块;

训练模块,用于对所述卷积神经网络进行弱监督训练,直到卷积神经网络的输出值达到预设值时完成弱监督训练得到手写文本识别模型。

进一步地,所述训练模块包括:

获取单元,用于获取无真实标注的训练样本集并将所述训练样本集输入至所述卷积神经网络进行弱监督训练;

误差评价单元,用于通过预设损失函数对所述卷积神经网络的输出值进行误差评价;

模型生成单元,用于根据误差评价结果调节所述卷积神经网络的权重参数,直到所述卷积神经网络的输出值达到预设值时完成弱监督训练得到手写文本识别模型。

进一步地,所述特征提取模块12具体用于通过所述特征提取模块将所述待识别手写文本图像中的多行图像特征展开为单行图像特征后拼接得到一维特征图。

进一步地,所述识别模块13具体用于对提取得到的一维特征图进行字符匹配,获取与所述一维特征图匹配度最高的字符匹配结果后输出文本识别结果。

本发明另一实施例提供一种基于弱监督的手写文本识别系统,如图4所示,系统10包括:

一个或多个处理器110以及存储器120,图4中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图4中以通过总线连接为例。

处理器110用于完成系统10的各种控制逻辑,其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的基于弱监督的手写文本识别方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行系统10的各种功能应用以及数据处理,即实现上述方法实施例中的基于弱监督的手写文本识别方法。

存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据系统10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至系统10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,执行上述任意方法实施例中的基于弱监督的手写文本识别方法,例如,执行以上描述的图1中的方法步骤S100至步骤S300。

本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S100至步骤S300。

作为示例,非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制,RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被处理器执行时,使所述处理器执行上述方法实施例的基于弱监督的手写文本识别方法。例如,执行以上描述的图1中的方法步骤S100至步骤S300。

综上所述,本发明公开的基于弱监督的手写文本识别方法、装置、系统及介质中,方法通过获取待识别手写文本图像,将所述待识别手写图像输入至预先构建并完成弱监督训练的手写文本识别模型中;通过已完成弱监督训练的手写文本识别模型对所述待识别手写文本图像进行一维特征图提取处理;对提取得到的一维特征图进行字符识别后输出文本识别结果。本发明实施例通过弱监督方式训练得到的手写文本识别模型进行一维特征图提取后实现手写文本识别,在训练识别过程中无需进行分割过程,有效提高了手写文本识别的速度与效率。

以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存在于计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机电子设备(可以是个人计算机,服务器,或者网络电子设备等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外,诸如"能够"、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解,否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此,这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供基于弱监督的手写文本识别方法、装置、系统及介质的示例。当然,不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合,但是可以认识到,所公开的特征的许多另外的组合和置换是可能的。因此,显而易见的是,在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外,或在替代方案中,本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是,本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语,但是它们在通用和描述性意义上被使用并且不用于限制的目的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号