首页> 中国专利> 一种图像中文字的识别方法、装置、介质及电子设备

一种图像中文字的识别方法、装置、介质及电子设备

摘要

本发明实施例公开了一种图像中文字的识别方法、装置、介质及电子设备。该方法包括:获取待识别的文字图像区域;若所述待识别的文字图像区域中包含文字,则提取文字特征;将所述文字特征输入至预训练语言模型,用于供所述预训练语言模型对各文字进行预测,得到文字预测结果;其中,所述预训练语言模型是基于预先构建的有遮盖训练样本进行训练得到的;将所述文字预测结果作为图像中文字的识别结果。通过采用本申请所提供的技术方案,可以针对低质量图像能够实现对文字进行准确识别的效果。

著录项

  • 公开/公告号CN112801085A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 沈阳麟龙科技股份有限公司;

    申请/专利号CN202110176821.0

  • 发明设计人 冯煜博;徐娇;王广普;

    申请日2021-02-09

  • 分类号G06K9/20(20060101);G06K9/62(20060101);G06N3/08(20060101);G06N3/04(20060101);

  • 代理机构11315 北京国昊天诚知识产权代理有限公司;

  • 代理人南霆

  • 地址 110117 辽宁省沈阳市浑南区白塔二南街18-2号

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本发明实施例涉及图像识别技术领域,尤其涉及一种图像中文字的识别方法、装置、介质及电子设备。

背景技术

随着科学技术的发展,图像处理已经成为很多领域中都会涉及到的一部分。对于一些场景中,往往会需要将图像中的文字转化为文本内容,这就需要对图像进行增强处理和进行文字识别。增强处理主要包括图像去噪、图像超分辨率、图像去模糊等手段,在此基础上,再进行文字识别,可以实现对图像中的文本进行自动识别的目的。但是,对于一些低质量图像的使用场景,由于文字已经全部模糊甚至缺损,导致该文字提取过程出错率是极高的,如需要人工校验,则极大的影响了文字识别的效率和增加了文字识别的成本。

发明内容

本发明实施例提供一种图像中文字的识别方法、装置、介质及电子设备,可以针对低质量图像能够实现对文字进行准确识别的效果。

第一方面,本发明实施例提供了一种图像中文字的识别方法,该方法包括:

获取待识别的文字图像区域;

若所述待识别的文字图像区域中包含文字,则提取文字特征;

将所述文字特征输入至预训练语言模型,用于供所述预训练语言模型对各文字进行预测,得到文字预测结果;其中,所述预训练语言模型是基于预先构建的有遮盖训练样本进行训练得到的;

将所述文字预测结果作为图像中文字的识别结果。

进一步的,提取文字特征,包括:

使用由卷积神经网络和池化层构成的特征提取层,提取待识别图像的文字特征。

进一步的,使用由卷积层和池化层构成的特征提取层,提取待识别图像的文字特征,包括:

使用卷积神经网络对所述待识别图像进行特征提取,得到特征映射;

使用池化层对提取到的特征映射进行最大池化,得到精炼特征映射;

将所述精炼特征映射转化为特征序列。

进一步的,在将所述精炼特征映射转化为特征序列之前所述方法还包括:

对所述精炼特征映射进行归一化处理,得到归一化结果;

相应的,将所述精炼特征映射转化为特征序列,包括:

将所述归一化结果转化为特征序列。

进一步的,所述预训练语言模型的训练过程包括:

获取有遮盖训练样本;所述有遮盖训练样本包括单个文字的部分遮盖和/或全部遮盖;

将所述训练样本划分为训练集和测试集;

采用所述训练集的训练样本输入至初始网络模型进行模型训练,以通过上下文对当前预测文字的关联系数,预测当前文字;

若所述初始网络模型经过测试集的训练样本测试后,满足预设条件,则将所述初始网络模型确定为预训练语言模型。

第二方面,本发明实施例还提供了一种图像中文字的识别装置,包括:

文字图像区域获取模块,用于获取待识别的文字图像区域;

文字特征提取模块,用于若所述待识别的文字图像区域中包含文字,则提取文字特征;

文字预测结果确定模块,用于将所述文字特征输入至预训练语言模型,用于供所述预训练语言模型对各文字进行预测,得到文字预测结果;其中,所述预训练语言模型是基于预先构建的有遮盖训练样本进行训练得到的;

识别结果确定模块,用于将所述文字预测结果作为图像中文字的识别结果。

进一步的,所述文字特征提取模块,包括:

特征提取单元,用于使用由卷积神经网络和池化层构成的特征提取层,提取待识别图像的文字特征。

进一步的,特征提取单元,具体用于:

使用卷积神经网络对所述待识别图像进行特征提取,得到特征映射;

使用池化层对提取到的特征映射进行最大池化,得到精炼特征映射;

将所述精炼特征映射转化为特征序列。

进一步的,所述文字特征提取模块,还包括:

归一化处理单元,用于对所述精炼特征映射进行归一化处理,得到归一化结果;

相应的,将所述精炼特征映射转化为特征序列,包括:

将所述归一化结果转化为特征序列。

进一步的,所述预训练语言模型的训练过程包括:

获取有遮盖训练样本;所述有遮盖训练样本包括单个文字的部分遮盖和/或全部遮盖;

将所述训练样本划分为训练集和测试集;

采用所述训练集的训练样本输入至初始网络模型进行模型训练,以通过上下文对当前预测文字的关联系数,预测当前文字;

若所述初始网络模型经过测试集的训练样本测试后,满足预设条件,则将所述初始网络模型确定为预训练语言模型。

第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的图像中文字的识别方法。

第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的图像中文字的识别方法。

本申请实施例所提供的技术方案,获取待识别的文字图像区域;若所述待识别的文字图像区域中包含文字,则提取文字特征;将所述文字特征输入至预训练语言模型,用于供所述预训练语言模型对各文字进行预测,得到文字预测结果;其中,所述预训练语言模型是基于预先构建的有遮盖训练样本进行训练得到的;将所述文字预测结果作为图像中文字的识别结果。本申请所提供的技术方案,可以针对低质量图像能够实现对文字进行准确识别的效果。

附图说明

图1是本发明实施例一提供的图像中文字的识别方法的流程图;

图2是本发明实施例一提供低质量图像的示意图;

图3是本发明实施例一提供的图像中文字的识别流程的示意图;

图4是本发明实施例一提供的识别过程使用的模型的结构示意图;

图5是本发明实施例二提供的图像中文字的识别装置的结构示意图;

图6是本申请实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图像增强:在图像的获取、传输、和存储的过程中,现实中的复杂成像原因(如噪声、模糊、失真等),从而降低图像的视觉感知质量。为了将低质量的图像复原成高质量的图像,研究者们提出了很多的方法,这其中比较具有代表性的技术有“图像去噪”、“图像超分辨率”和“图像去模糊”等。

文字识别(Optical Character Recognition,OCR):也即光学字符识别,是一种针对图像中的文本进行自动识别的技术,它有着悠久的研究历史和广泛的应用场景,如文档电子化,身份认证,数字金融系统和车牌识别。此外,在工厂中,通过自动提取产品的文本信息,可以更方便地管理产品。学生的离线作业或试卷可以通过OCR系统电子化,使教师和学生之间的交流更加有效。

传统方案中,图像增强仅能使得含有物体或人物的图像质量增强,不能将图像中残缺的文字进行补全等复原操作。文字识别仅能将图像中成像质量较高的文字识别出来,无法处理残缺不全的文字;无法处理噪声、模糊或低分辨率图片中的文字。因此,对于一些低质量图像,尤其是文字部分存在缺失的图像,很难用传统方案去进行准确的文字识别。

也正因如此,因为语言处理属于认知智能范畴,图像处理属于感知智能范畴。仅凭数据量增长和算力增长的深度学习,是无法使得模型从感知智能进化到认知智能的,还需要引入知识来辅助模型的学习才有可能做到这样的提升。

传统的文字识别研究,没有考虑到低分辨率图像、图像中的印刷文字受损或被遮挡等情况等工业界真实存在的问题,使得学术界缺乏相关问题的研究。

部分语言识别模型同样掣肘于缺乏工业界实际问题驱动的原因,使得当前的主流研究没有关注到本文提出的核心问题,即低质量图像的文字识别。

本方案基于此,提供了一种预训练语言模型,预训练语言模型是基于大规模无监督文本的神经网络预训练,使得模型具有一定的自然语言理解能力。将预训练好的模型在目标领域上进行微调,进而模型可以较好地处理目标领域问题。

实施例一

图1是本发明实施例一提供的图像中文字的识别方法的流程图,本实施例可适用于对低质量图像进行文字识别的情况,该方法可以由本发明实施例所提供的图像中文字的识别装置来执行,该装置可以由软件和/或硬件的方式来实现,并可集成于服务系统的电子设备中。

如图1所示,所述方法包括:

S110、获取待识别的文字图像区域。

其中,待识别的文字图像区域可以是前文中所述的低质量图像中包含有文字的图像区域。低质量图像多来自于扫描件。如书籍扫描件,报纸扫描件等等。可以理解的,低质量图像中,存在的文字区域可能会被部分遮挡,导致某一个文字或者某多个文字的部分或者全部被遮挡,无法提取特征。

图2是本发明实施例一提供低质量图像的示意图,如图2所示,该低质量图片为书籍扫描件。经图像增强处理后,文字变得模糊,以至于人工都已经无法辨识图片中的文字。经文字识别处理后,识别结果的错字率极高。常规的语言模型无法处理图片。

S120、若所述待识别的文字图像区域中包含文字,则提取文字特征。

其中,首先可以针对是否包含文字进行识别,如果包含,则采用本方案提供的文字识别方案,如果不包含,则可以直接进行其他的图像识别。

如果包含文字,则可以针对文字区域进行特征提取。具体的,可以采用卷积神经网络(CNN)对图像进行特征提取,得到特征映。基础的CNN由卷积(convolution),激活(activation)和池化(pooling)三种结构组成。CNN输出的结果是每幅图像的特定特征空间。当处理图像分类任务时,我们会把CNN输出的特征空间作为全连接层或全连接神经网络(fully connected neural network,FCN)的输入,用全连接层来完成从输入图像到标签集的映射,即分类。当然,整个过程最重要的工作就是如何通过训练数据迭代调整网络权重,也就是后向传播算法。目前主流的卷积神经网络(CNNs),比如VGG,ResNet等都是由简单的CNN调整,组合而来。

本方案中,可选的,提取文字特征,包括:

使用由卷积神经网络和池化层构成的特征提取层,提取待识别图像的文字特征。

其中,文字特征可以是基于图像提取的特征之后未加处理直接作为后续的输入数据的,还可以是进行转化,得到特征序列作为后续的输入,本方案通过采用卷积神经网络以及池化层对图像特征进行处理,可以更加准确的获得待识别图像文字区域的多粒度的特征,从而确保后续的文字识别过程更加准确。

具体的,使用由卷积层和池化层构成的特征提取层,提取待识别图像的文字特征,包括:

使用卷积神经网络对所述待识别图像进行特征提取,得到特征映射;

使用池化层对提取到的特征映射进行最大池化,得到精炼特征映射;

将所述精炼特征映射转化为特征序列。

使用卷积神经网络(CNN)对图像进行特征提取,得到特征映射,特征映射(FeatureMaps),也叫做特征图,或者叫地标图(landmark maps);

使用池化层(Pooling)对提取到的特征映射进行最大池化(Max Pooling),获得精炼后的特征映射。

在池化完成之后,还可以对所述精炼特征映射进行归一化处理,得到归一化结果;

相应的,将所述精炼特征映射转化为特征序列,包括:

将所述归一化结果转化为特征序列。

通过使用归一化层(Normlization)对精炼后的特征映射进行批归一化(BatchNormlization)处理,可以防止神经网络发生梯度弥散,得到的结果更加准确。

S130、将所述文字特征输入至预训练语言模型,用于供所述预训练语言模型对各文字进行预测,得到文字预测结果;其中,所述预训练语言模型是基于预先构建的有遮盖训练样本进行训练得到的。

得到文字特征之后,可以将其输入至预训练语言模型,以使预训练语言模型进行逐个文字的识别,并结合上下文完成对各文字进行预测,得到文字预测结果。

本方案中,可选的,所述预训练语言模型的训练过程包括:

获取有遮盖训练样本;所述有遮盖训练样本包括单个文字的部分遮盖和/或全部遮盖;

将所述训练样本划分为训练集和测试集;

采用所述训练集的训练样本输入至初始网络模型进行模型训练,以通过上下文对当前预测文字的关联系数,预测当前文字;

若所述初始网络模型经过测试集的训练样本测试后,满足预设条件,则将所述初始网络模型确定为预训练语言模型。

具体的,训练样本可以是本身就带有遮挡的文字图像,还可以是清晰的文字图像,经过人工处理后,遮挡其中的部分文字。将其分为训练集和测试集之后,可以采用训练集进行训练,并利用测试集确定训练得到的初始模型是否收敛,或者说对文字的预测准确率是否能够达到预设条件。此处的预设条件可以是设置为准确率达到99.5%,甚至更多。

本方案利用传统的文字检测与识别方法,先识别出文字在图像中出现的区域,然后将该区域内的图像交由文字识别网络进行识别,在文字识别的同时,本方案联合预训练语言模型根据上下文进行当前识别区域内文字的预测,最后在输出层综合考虑文字识别网络和预训练语言模型的预测情况,根据上下文和图像信息等神经网络隐含信息,输出本模型的文字识别结果。

S140、将所述文字预测结果作为图像中文字的识别结果。

可以理解的,如果预测完成,则可以直接将预测结果作为文字识别的最终结果,从而完成对低质量图像的文字识别工作。

图3是本发明实施例一提供的图像中文字的识别流程的示意图,如图3所示,本方案实际执行过程中,主要包括如下几个步骤:

步骤1:输入文字识别图像;

步骤2:使用卷积神经网络(CNN)对图像进行特征提取,得到特征映射;

步骤3:使用池化层(Pooling)对提取到的特征映射进行最大池化(Max Pooling),获得精炼后的特征映射;

步骤4:使用归一化层(Normlization)对精炼后的特征映射进行批归一化(BatchNormlization)处理,防止神经网络发生梯度弥散;

步骤5:循环执行步骤2至步骤4步6次;

步骤6:使用Map-to-Sequence映射到序列网络,将特征映射转化为特征序列(Feature Sequence);

步骤7:将特征序列输入到BERT模型中进行预测,得到文字识别结果。

图4是本发明实施例一提供的识别过程使用的模型的结构示意图,如图4所示,本文所提的模型由三部分组成,分别是卷积层、map-to-sequence层和全连接层。

卷积层用来提取图像的高维隐语义特征;

map-to-sequence层用来将三维连续张量转换为三维序列张量;

全连接层接收图像的序列特征,将其映射为文字。

特别的,在BERT模型中,[CLS]表示分类任务的标签,Fe是特征(Feature),E是嵌入向量,C是分类标签,T是文字的上下文表示,O是模型预测出的文字。

本方案提出了一种新的自然语言处理与计算机视觉结合的多模态任务——低质量图像的文字识别任务。

并且,本方案将文字识别任务扩展到了更细分的领域,使得文字识别模型的适用范围更广阔,相信随着本文所提任务的相关研究不断发展,甚至可以使得人工智能技术被用来辅助古籍文字的识别与复原等文物保护工作;或者是卫星高空勘察等领域。

实施例二

图5是本发明实施例二提供的图像中文字的识别装置的结构示意图。如图5所示,所述图像中文字的识别装置包括:

文字图像区域获取模块510,用于获取待识别的文字图像区域;

文字特征提取模块520,用于若所述待识别的文字图像区域中包含文字,则提取文字特征;

文字预测结果确定模块530,用于将所述文字特征输入至预训练语言模型,用于供所述预训练语言模型对各文字进行预测,得到文字预测结果;其中,所述预训练语言模型是基于预先构建的有遮盖训练样本进行训练得到的;

识别结果确定模块540,用于将所述文字预测结果作为图像中文字的识别结果。

进一步的,所述文字特征提取模块,包括:

特征提取单元,用于使用由卷积神经网络和池化层构成的特征提取层,提取待识别图像的文字特征。

进一步的,特征提取单元,具体用于:

使用卷积神经网络对所述待识别图像进行特征提取,得到特征映射;

使用池化层对提取到的特征映射进行最大池化,得到精炼特征映射;

将所述精炼特征映射转化为特征序列。

进一步的,所述文字特征提取模块,还包括:

归一化处理单元,用于对所述精炼特征映射进行归一化处理,得到归一化结果;

相应的,将所述精炼特征映射转化为特征序列,包括:

将所述归一化结果转化为特征序列。

进一步的,所述预训练语言模型的训练过程包括:

获取有遮盖训练样本;所述有遮盖训练样本包括单个文字的部分遮盖和/或全部遮盖;

将所述训练样本划分为训练集和测试集;

采用所述训练集的训练样本输入至初始网络模型进行模型训练,以通过上下文对当前预测文字的关联系数,预测当前文字;

若所述初始网络模型经过测试集的训练样本测试后,满足预设条件,则将所述初始网络模型确定为预训练语言模型。

上述产品可执行本发明实施例一所提供的方法,具备执行方法相应的功能模块和有益效果。

实施例三

本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种图像中文字的识别方法,该方法包括:

获取待识别的文字图像区域;

若所述待识别的文字图像区域中包含文字,则提取文字特征;

将所述文字特征输入至预训练语言模型,用于供所述预训练语言模型对各文字进行预测,得到文字预测结果;其中,所述预训练语言模型是基于预先构建的有遮盖训练样本进行训练得到的;

将所述文字预测结果作为图像中文字的识别结果。

存储介质——任何的各种类型的存储器电子设备或存储电子设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的图像中文字的识别操作,还可以执行本申请任意实施例所提供的图像中文字的识别方法中的相关操作。

实施例四

本申请实施例提供了一种电子设备。图6是本申请实施例四提供的一种电子设备的结构示意图。如图6所示,本实施例提供了一种电子设备600,其包括:一个或多个处理器620;存储装置610,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器620运行,使得所述一个或多个处理器620实现本申请实施例所提供的图像中文字的识别方法,该方法包括:

获取待识别的文字图像区域;

若所述待识别的文字图像区域中包含文字,则提取文字特征;

将所述文字特征输入至预训练语言模型,用于供所述预训练语言模型对各文字进行预测,得到文字预测结果;其中,所述预训练语言模型是基于预先构建的有遮盖训练样本进行训练得到的;

将所述文字预测结果作为图像中文字的识别结果。

图6显示的电子设备600仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示,该电子设备600包括处理器620、存储装置610、输入装置630和输出装置640;电子设备中处理器620的数量可以是一个或多个,图6中以一个处理器620为例;电子设备中的处理器620、存储装置610、输入装置630和输出装置640可以通过总线或其他方式连接,图6中以通过总线650连接为例。

存储装置610作为一种计算机可读存储介质,可用于存储软件程序、计算机可运行程序以及模块单元,如本申请实施例中的图像中文字的识别方法对应的程序指令。

存储装置610可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置610可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置610可进一步包括相对于处理器620远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏、扬声器等电子设备。

本申请实施例提供的电子设备,可以针对低质量图像能够实现对文字进行准确识别的效果。

上述实施例中提供的图像中文字的识别装置、介质及电子设备可运行本申请任意实施例所提供的图像中文字的识别方法,具备运行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的图像中文字的识别方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号