首页> 中国专利> 图像质量等级的确定方法、装置、设备及计算机可读介质

图像质量等级的确定方法、装置、设备及计算机可读介质

摘要

本申请涉及一种图像质量等级的确定方法、装置、设备及计算机可读介质。该方法包括:获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。本申请解决了票据图像质量评估时针对票据文本质量的评估结果不准确的技术问题。

著录项

  • 公开/公告号CN112365451A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 微民保险代理有限公司;

    申请/专利号CN202011147351.7

  • 发明设计人 毕姚姚;陈琳;吴伟佳;李羽;

    申请日2020-10-23

  • 分类号G06T7/00(20170101);G06K9/20(20060101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构44481 深圳智汇远见知识产权代理有限公司;

  • 代理人李雪鹃;王旭

  • 地址 518063 广东省深圳市南山区粤海街道深南大道9996号松日鼎盛大厦25楼

  • 入库时间 2023-06-19 09:52:39

说明书

技术领域

本申请涉及图像处理技术领域,尤其涉及一种图像质量等级的确定方法、装置、设备及计算机可读介质。

背景技术

票据质量的审核最重要的在于票据文字的大小是否合适、局部关键字是否清晰,字迹打印是否连续等。票据人工审核不仅耗费人力,而且审核周期长,用户体验差。

目前,相关技术中,通常采用票据图像识别模型(如CV算子、机器学习模型以及票据分类深度模型)来对票据图像进行自动质量识别,一般是基于图像整体而产生的人工构造或自动构造的特征,所采用的方法也都是基于自然图像质量识别的通用方法,对于文字区域质量识别为重点的票据图像场景,票据图像质量评估时针对票据文本质量的评估结果不准确。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本申请提供了一种图像质量等级的确定方法、装置、设备及计算机可读介质,以解决票据图像质量评估时针对票据文本质量的评估结果不准确的技术问题。

根据本申请实施例的一个方面,本申请提供了一种图像质量等级的确定方法,包括:获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。

根据本申请实施例的另一方面,本申请提供了一种图像质量等级的确定装置,包括:图像获取模块,用于获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;文本特征提取模块,用于提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;图像分类模块,用于在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。

根据本申请实施例的另一方面,本申请提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法。

根据本申请实施例的另一方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。

本申请实施例提供的上述技术方案与相关技术相比具有如下优点:

本申请技术方案为获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。本申请解决了票据图像质量评估时针对票据文本质量的评估结果不准确的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为根据本申请实施例提供的一种可选的图像质量等级的确定方法硬件环境示意图;

图2为根据本申请实施例提供的一种可选的图像质量等级的确定方法流程图;

图3为根据本申请实施例提供的一种可选的文本区域特征提取流程图;

图4为根据本申请实施例提供的一种可选的从输入端融合文本检测模型的示意图;

图5为根据本申请实施例提供的一种可选的从特征层融合文本检测模型的示意图;

图6为根据本申请实施例提供的一种可选的采用多任务学习融合文本检测模型的示意图;

图7为根据本申请实施例提供的一种可选的采用预训练模型融合文本检测模型的示意图;

图8为根据本申请实施例提供的一种可选的图像质量等级的确定装置框图;

图9为本申请实施例提供的一种可选的电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。

首先,在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:

神经网络:神经网络可以是由神经单元组成的,神经单元可以是指以x

其中,s=1、2、……n,n为大于1的自然数,W

深度神经网络:深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。例如,全连接神经网络中层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:

卷积神经网络:卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,都能使用同样的学习得到的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。

CRAFT:残差网络,深度神经网络中的一种,残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。

多任务学习:是一种归纳迁移机制,主要目标是利用隐含在多个相关任务的训练信号中的特定领域信息来提高泛化能力,多任务学习通过使用共享表示并行训练多个任务来完成这一目标。

像素值:图像的像素值可以是一个红绿蓝(RGB)颜色值,像素值可以是表示颜色的长整数。例如,像素值为256*Red+100*Green+76Blue,其中,Blue代表蓝色分量,Green代表绿色分量,Red代表红色分量。各个颜色分量中,数值越小,亮度越低,数值越大,亮度越高。对于灰度图像来说,像素值可以是灰度值。

相关技术中,通常采用票据图像识别模型(如CV算子、机器学习模型以及票据分类深度模型)来对票据图像进行自动质量识别,一般是基于图像整体而产生的人工构造或自动构造的特征,所采用的方法也都是基于自然图像质量识别的通用方法,对于文字区域质量识别为重点的票据图像场景,票据图像质量评估时针对票据文本质量的评估结果不准确。

为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种图像质量等级的确定方法的实施例。

可选地,在本申请实施例中,上述图像质量等级的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。

本申请实施例中的一种图像质量等级的确定方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:

步骤S202,待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域。

本申请实施例中的基于文本检测模型的票据图像处理方法可以应用于申请人申请办理一些对上传的票据图像的清晰度有一定要求的业务场景中,比如申请人办理理赔业务,需要上传票据图像至理赔业务系统,理赔业务系统对当前获取的票据图像的清晰度进行判别,以确定下一步是进入受理阶段还是通知申请人根据系统提示要求重新回传。其中,业务场景也可以是申请人到银行办理个人信息相关的金融业务等,本申请实施例中对此不作限定。

可选地,本申请实施例以理赔业务场景为例对上述基于文本检测模型的票据图像处理方法进行解释说明。申请人可以将待处理图像上传到理赔业务系统内,其中,待处理图像为申请受理目标业务的票据图像,比如,该票据图像是用户的保险账单图像信息。

理赔业务系统的后台服务器可以接收申请人的客户端(即,申请受理目标业务的客户端)上传的待处理图像,从而获取到该待处理图像。

步骤S204,利提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系。

本申请实施例中,对票据图像进行质量自动识别时,为了贴合票据图像中的文字区域作为关键识别区域的特殊性,可以采用深度文本检测模型对票据图像进行文本区域检测,以在图像中找出文字所在的位置。常用的深度文本检测模型有CTPN、segLink、EAST、PSENet、LSAE、ATRR、CRAFT等模型。

步骤S206,在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。

本申请实施例中,可以将文本检测模型对待处理图像提取的文本区域特征结合到目标分类模型,以将文本检测模型融入目标分类模型,来提高对票据图像质量的评估准确率。目标分类模型可以采用卷积神经网络模型作为初始训练模型利用具有标记信息的训练数据进行训练得到的。标记信息至少标记出训练数据的图像质量等级。

采用本申请技术方案,通过将文本检测模型融合到通用质量评估模型中,能够解决票据图像质量评估时针对票据文本质量的评估结果不准确的技术问题。

可选地,如图3所示,利用文本检测模型提取待处理图像的文本区域特征可以包括以下步骤:

步骤S302,通过对待处理图像进行缩放处理,得到符合目标尺寸要求的中间图像;

步骤S304,利用文本检测模型对中间图像进行上采样,以提取单字符特征;

步骤S306,将提取到的多个单字符特征进行合并,得到多字符特征;

步骤S308,确定中间图像的各个像素点属于多字符特征中每个字符中心的概率,得到文本特征图。

本申请实施例中,可以对待处理图像进行下采样,即缩放处理,使得到的中间图像与待处理图像的长度和宽度一致。待处理图像的尺寸即为上述目标尺寸。利用上采样从中间图像中裁剪出单个字符的图像,还可以使用分水岭算法分割字符区域,得到单个字符,此时每个字符都被包围于多边形框中,多边形框的中心位置即为每个字符的字符中心。将分割的多个单个字符的多边形框的坐标转换回待处理图像上的坐标,即将多个单字符进行合并,按照坐标顺序可以得到连续的多字符。最后逐像素计算该像素属于字符中心的概率,得到文本特征图。

本申请实施例中可以采用CRAFT模型作为文本检测模型。CRAFT模型的主干网络采用VGG-16的backbone,VGG-16为一种深度卷积神经网络,backbone是网络结构中的主干部分,在CV领域一般指对图像进行特征提取的网络部分。CRAFT提取待处理图像的文本区域特征时,类似于u-net结构先下采样再上采样的方法,可以进行多次下采样。下采样会将输入图片的长和宽padding到距离长和宽的值最近的32的倍数,比如输入图片为500*400,则会将图片padding到512*416,可以有效的避免分割中的像素漂移现象。像素漂移,即数字图像的位相漂移,是指在对一幅静止的光学影像进行重复采集的一系列数字图像发生抖动的现象。下采样之后将要进行上采样和特征合并操作的图像为中间图像,CRAFT模型对中间图像进行上采样和特征合并后,模型输出两个通道特征图:region score map和affinityscore map,分别为单字符中心区域的概率和相邻字符区域中心的概率。

由于票据图像的质量识别场景需要关注的时文字区域的特征而弱化非文字区域的特征,因此可以通过region score map,也即文本区域特征区分出文字区域与非文字区域。通常情况下文字区域的模糊程度不同时,区域概率值也不同,也可以使用文字区域概率值区分图像的模糊程度。

本申请提供了4种将文本检测模型融合至通用质量评估模型中的方法,下面结合图4至图7,详细说明本申请各个方案。

可选地,在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级可以包括以下步骤:

步骤1,将文本特征图进行缩放处理,以将文本特征图调整至与待处理图像的长度和宽度一致。

本申请实施例中,上采样和下采样可以对图像进行缩放,从而可以将目标特征图调整至与待处理图像的长度和宽度一致。对于一幅图像I尺寸为M*N,对其进行s倍采样,即得到(M/s)*(N/s)尺寸的分辨率图像,s为M和N的公约数,此即为下采样。上采样可以采用内插值的方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

步骤2,将待处理图像的三颜色分量作为图像信息输入目标分类模型,并将与待处理图像长度和宽度一致的文本特征图作为附加图像信息输入目标分类模型,以供目标分类模型利用文本特征图对待处理图像进行识别。

在计算机视觉领域,一般图像输入信息的尺寸为高度*宽度*通道数,彩色图像的通道输入一般为颜色三通道数据,如RGB三通道、HSV三通道、YUV三通道等。

本申请实施例中,如图4所示,可以将文本检测模型对待处理图像提取的文本区域特征(即与待处理图像长度和宽度一致的文本特征图)作为图像输入信息的一个维度从第四个通道输入,从而可以增强目标分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。

步骤3,根据目标分类模型利用文本特征图对待处理图像进行识别的识别结果确定待处理图像所属的目标质量等级。

可选地,根据目标分类模型利用文本特征图对待处理图像进行识别的识别结果确定待处理图像所属的目标质量等级包括以下步骤:

步骤31,将文本特征图和待处理图像输入目标分类模型的第一卷积层,得到第一图像特征;

步骤32,将第一图像特征输入目标分类模型的第二卷积层,得到输出层输出的类别概率,第二卷积层的输出结果通过输出层输出,类别概率用于评估待处理图像的质量等级;

步骤33,在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。

本申请实施例中,上述第一卷积层为目标分类模型的隐含层中的多层卷积层,用于提取图像特征,上述第二卷积层为1*1卷积层,用于计算概率。

本申请实施例中,卷积层可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或取决于步长stride的取值,多个像素接着多个像素)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小与待处理图像的大小相关。

需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像(待处理图像和目标特征图)的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用多个尺寸(行×列)相同的权重矩阵,即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度,这里的维度可以理解为由上面所述的“多个”来决定。

不同的权重矩阵可以用来提取图像中不同的特征,例如,一个权重矩阵可以用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪声进行模糊化等。该多个权重矩阵尺寸(行×列)相同,经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同,再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息,从而使得神经网络进行正确的预测。本申请实施例中,经过卷积层可以得到第一图像特征,该第一图像特征为结合待处理图像和文本区域特征识别得到的。

本申请实施例中,第一图像特征进入1*1卷积层进行概率预测,由输出层输出预测结果(即上述待处理图像属于各个分类的类别概率)。最后根据预设的类别概率阈值范围确定待处理图像的目标质量等级,质量等级高,表示该待处理图像文字区域清晰,票据图像质量较高,质量等级低,表示该待处理图像文字区域模糊,票据图像质量较低。

采用本申请技术方案,能够从输入端将文本检测模型融合至通用质量评估模型,能够增强分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。

可选地,在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级还可以包括以下步骤:

步骤1,将待处理图像输入目标分类模型,得到目标分类模型的第一卷积层输出的待处理图像的第二图像特征,第二图像特征为对待处理图像进行特征预提取的结果。

本申请实施例中,上述第二图像特征为目标分类模型仅对待处理图像进行特征识别得到的,即该待处理图像的整体图像特征。上述第一卷积层为目标分类模型的隐含层中的多层卷积层,用于提取图像特征。

步骤2,将第二图像特征和文本区域特征输入目标分类模型的特征层,以将第二图像特征和文本区域特征进行特征融合,得到第三图像特征。

本申请实施例中,上述第三图像特征为将待处理图像的整体图像特征(即第二图像特征)和文本区域特征融合后得到的。

步骤3,将第三图像特征输入目标分类模型的第二卷积层,得到输出层输出的类别概率,第二卷积层的输出结果通过输出层输出,类别概率用于评估待处理图像的质量等级。

本申请实施例中,上述第二卷积层为1*1卷积层,用于进行概率预测。

步骤4,在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。

本申请实施例中,如图5所示,还可以在目标分类模型的特征层融合文本检测模型,即可以将文本检测模型对待处理图像提取的文本区域特征和目标分类模型的卷积层对待处理图像初步提取的图像整体特征进行特征融合,在融合后的特征上进行分类任务的识别。

可选地,将第二图像特征和文本区域特征进行特征融合可以包括以下方式中的至少一种:

将第二图像特征和文本区域特征进行缩放处理,以将第二图像特征和文本区域特征调整至大小一致;将大小一致的第二图像特征和文本区域特征相加,以进行特征拼接,得到第三图像特征;

将第二图像特征和文本区域特征相乘,得到特征矩阵;对特征矩阵进行池化运算,得到特征向量;对特征向量进行归一化,以进行双线性池化,得到第三图像特征。

本申请实施例中,上述第二图像特征和文本区域特征均是由矩阵表示,矩阵拼接需要相同的维度,因此在矩阵拼接之前需要对第二图像特征和文本区域特征进行缩放处理,以使两个矩阵维度相同。

本申请实施例中,在进行双线性池化融合特征时,将第二图像特征和文本区域特征相乘,即将表示第二图像特征的矩阵和表示文本特征的矩阵相乘,若第二图像特征为M行,文本区域特征为N列,则得到的融合特征为M*N维德矩阵。上述池化运算可以是最大池化运算,还可以时平均池化运算。

采用本申请技术方案,能够从通用质量评估模型的特征层将文本检测模型融合至通用质量评估模型,能够增强分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。

可选地,利用文本检测模型提取待处理图像的文本区域特征还包括:

采用目标分类模型中的目标中间层对待处理图像进行特征提取,得到中间层特征图,文本区域特征包括中间层特征图,目标中间层为使用文本检测模型对训练数据提取文本区域特征作为监督标签进行监督训练得到的;

在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级还可以包括:确定中间层特征图与文本检测模型提取到的文本特征图的均方误差损失;确定目标分类模型对待处理图像进行识别得到的第一质量等级;将均方误差损失与第一质量等级的加权和作为待处理图像所属的目标质量等级。

本申请实施例中,如图6所示,可以参照多任务学习模型在通用质量评估模型(分类模型)任务的基础上增加文本检测模型任务,即可以在当前分类任务之外增加文字区域检测的任务监督,可以是在原分类模型的主干网络中选取一个中间层用于预测字符区域概率,监督标签可以使用CRAFT在同一张图像上(待处理图像)输出的region score map进行监督,例如将中间层对待处理图像预测输出的概率图(文本区域特征)作为中间层特征图,将文本检测模型对待处理图像预测输出得到的region score map(文本区域特征)作为监督标签,再将中间层特征图和监督标签做均方误差,以进行文本区域特征的任务监督。需要说明的是,中间层特征图与监督标签尺寸不一致时,需要进行上采样、下采样中的至少一种,以进行归一化。

本申请实施例中,将中间层特征图和监督标签做均方误差可以是将中间层特征图作为估计量,监督标签作为被估计量,通过计算二者的均方误差来反映二者的差异程度,具体可以是计算由中间层预测的概率(中间层特征图)与由文本检测模型预测的概率(监督标签)之间差值平方的期望。

本申请实施例中,目标分类模型还可以根据待处理图像的整体图像特征先预测出待处理图像的第一质量等级,该第一质量等级为未结合文本区域特征进行评估得到的,因此可以对第一质量等级和上述均方误差损失赋予权重,将二者的加权和作为最终的该待处理图像的目标质量等级,从而将文本区域特征结合到图像质量等级的分类任务中。

采用本申请技术方案,能够从多任务监督的角度将文本检测模型融合至通用质量评估模型,能够增强分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。

可选地,利用文本检测模型提取待处理图像的文本区域特征之前,该方法还包括:

将文本检测模型的输出层替换为全连接层,并利用训练数据对文本检测模型进行分类任务的训练,得到目标分类模型,以将文本检测模型作为目标分类模型的预训练模型来使用分类任务对文本检测模型的训练参数进行微调,分类任务为确定图像质量等级的任务。

本申请实施例中,文本检测模型本身是用来进行识别文本区域的任务,模型中以输出层输出识别结果。目标分类模型是用来进行分类任务的,模型中通常以全连接层输出预测的概率。因此为了将文本检测模型作为目标分类模型的预训练模型,可以将文本检测模型的最后一层(即输出层)替换成全连接层来做分类任务。

本申请实施例中,如图7所示,还可以将文本检测模型作为分类模型的预训练模型,具体可以是将文本检测模型的输出层替换为全连接层,并利用训练数据对文本检测模型进行分类任务的训练,得到目标分类模型,以将文本检测模型作为目标分类模型的预训练模型,并使用分类任务对文本检测模型的训练参数进行微调,分类任务为确定图像质量等级的任务。

全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。

提取文本区域的文本区域特征还包括:将待处理图像输入目标分类模型,以利用目标分类模型的主干网络提取待处理图像的文本区域特征和整体图像特征。

在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级还包括:将文本区域特征和整体图像特征输入全连接层,得到全连接层输出的类别概率,类别概率用于评估待处理图像的质量等级;在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。

本申请实施例中,利用文本检测模型作为预训练模型得到的目标分类模型可以从待处理图像中提取出该图像的整体图像特征和文本区域特征,再将该图像的整体图像特征和文本区域特征输入全连接层,以进行概率预测,得到该待处理图像所属的目标质量等级。

采用本申请技术方案,能够从预训练模型的角度将文本检测模型融合至通用质量评估模型,能够增强分类模型对票据中文字区域与非文字区域、文字清晰与文字模糊的区分。

根据本申请实施例的又一方面,如图8所示,提供了一种基于文本检测模型的票据图像处理装置,包括:图像获取模块801,用于获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;文本特征提取模块803,用于提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;图像分类模块805,用于在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。

需要说明的是,该实施例中的图像获取模块801可以用于执行本申请实施例中的步骤S202,该实施例中的文本特征提取模块803可以用于执行本申请实施例中的步骤S204,该实施例中的图像分类模块805可以用于执行本申请实施例中的步骤S206。

此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。

可选地,该文本特征提取模块,具体用于:通过对所述待处理图像进行缩放处理,得到符合目标尺寸要求的中间图像;利用文本检测模型对所述中间图像进行上采样,以提取单字符特征;将提取到的多个单字符特征进行合并,得到多字符特征;确定中间图像的各个像素点属于多字符特征中每个字符中心的概率,得到文本特征图。

可选地,该图像分类模块,具体用于:将文本特征图进行缩放处理,以将文本特征图调整至与待处理图像的长度和宽度一致;将待处理图像的三颜色分量作为图像信息输入目标分类模型,并将与待处理图像长度和宽度一致的文本特征图作为附加图像信息输入目标分类模型,以供目标分类模型利用文本特征图对待处理图像进行识别;根据目标分类模型利用文本特征图对待处理图像进行识别的识别结果确定待处理图像所属的目标质量等级。

可选地,该图像分类模块,还用于:将文本特征图和待处理图像输入目标分类模型的第一卷积层,得到第一图像特征;将第一图像特征输入目标分类模型的第二卷积层,得到输出层输出的类别概率,第二卷积层的输出结果通过输出层输出,类别概率用于评估待处理图像的质量等级;在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。

可选地,该图像分类模块,还用于:将待处理图像输入目标分类模型,得到目标分类模型的第一卷积层输出的待处理图像的第二图像特征,第二图像特征为对待处理图像进行特征预提取的结果;将第二图像特征和文本区域特征输入目标分类模型的特征层,以将第二图像特征和文本区域特征进行特征融合,得到第三图像特征;将第三图像特征输入目标分类模型的第二卷积层,得到输出层输出的类别概率,第二卷积层的输出结果通过输出层输出,类别概率用于评估待处理图像的质量等级;在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。

可选地,该图像分类模块,还包括特征融合单元,用于:将第二图像特征和文本区域特征进行缩放处理,以将第二图像特征和文本区域特征调整至大小一致;将大小一致的第二图像特征和文本区域特征相加,以进行特征拼接,得到第三图像特征;将第二图像特征和文本区域特征相乘,得到特征矩阵;对特征矩阵进行池化运算,得到特征向量;对特征向量进行归一化,以进行双线性池化,得到第三图像特征。

可选地,该文本特征提取模块,还用于:采用目标分类模型中的目标中间层对待处理图像进行特征提取,得到中间层特征图,文本区域特征包括中间层特征图,目标中间层为使用文本检测模型对训练数据提取文本区域特征作为监督标签进行监督训练得到的。

可选地,该图像分类模块,还用于:确定中间层特征图与文本检测模型提取到的文本特征图的均方误差损失;确定目标分类模型对待处理图像进行识别得到的第一质量等级;将均方误差损失与第一质量等级的加权和作为待处理图像所属的目标质量等级。

可选地,基于文本检测模型的票据图像处理装置,还包括预训练模型模块,用于:将文本检测模型的输出层替换为全连接层,并利用训练数据对文本检测模型进行分类任务的训练,得到目标分类模型,以将文本检测模型作为目标分类模型的预训练模型来使用分类任务对文本检测模型的训练参数进行微调,分类任务为确定图像质量等级的任务。

可选地,该文本特征提取模块,还用于:将待处理图像输入目标分类模型,以利用目标分类模型的主干网络提取待处理图像的文本区域特征和整体图像特征。

可选地,该图像分类模块,还用于:将文本区域特征和整体图像特征输入全连接层,得到全连接层输出的类别概率,类别概率用于评估待处理图像的质量等级;在类别概率在预设类别概率阈值范围内的情况下,确定待处理图像所属的目标质量等级。

根据本申请实施例的另一方面,本申请提供了一种电子设备,如图9所示,包括存储器901、处理器903、通信接口905及通信总线907,存储器901中存储有可在处理器903上运行的计算机程序,存储器901、处理器903通过通信接口905和通信总线907进行通信,处理器903执行计算机程序时实现上述方法的步骤。

上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本申请实施例的又一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例的步骤。

可选地,在本申请实施例中,计算机程序产品或计算机程序用于处理器执行以下步骤的程序代码:

获取待处理图像,待处理图像包括记录有目标业务的受理记录的文本区域;

提取文本区域的文本区域特征,文本区域特征用于描述文本区域内的像素点与字符之间的关系;

在对待处理图像的质量等级进行评估时,基于待处理图像的整体图像特征和文本区域特征确定待处理图像所属的目标质量等级。

可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。

本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号