首页> 中国专利> 一种基于尺度自适应及方向注意力网络的场景文字识别方法

一种基于尺度自适应及方向注意力网络的场景文字识别方法

摘要

本发明涉及一种基于尺度自适应及方向注意力网络的场景文字识别方法,将输入图片映射到极坐标空间中得到极坐标图像,并利用卷积网络提取极坐标图像的特征J;利用深度卷积网络将图片在极坐标空间中的特征表达转换成高阶的语义特征F;对转换得到的高阶语义特征,利用字符感受野注意力机制对每个字符编码更相关区域的特征,获取鲁棒的特征表达并离散成为特征序列Q;利用双向长短记忆网络捕捉特征序列Q之间的上下文关系,获取特征序列H;将特征序列H输入至解码网络进行解析,生成语义顺序规则的文字字符串。本发明能有效识别任意语义方向的场景文字;对于不同尺度的字符能编码更加有效的特征表达,显著提升识别性能。

著录项

  • 公开/公告号CN112257716A

    专利类型发明专利

  • 公开/公告日2021-01-22

    原文格式PDF

  • 申请/专利权人 之江实验室;

    申请/专利号CN202011424315.0

  • 申请日2020-12-08

  • 分类号G06K9/32(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人邱启旺

  • 地址 311121 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼

  • 入库时间 2023-06-19 09:40:06

说明书

技术领域

本发明属于计算机视觉技术领域,涉及一种能够识别自然场景图像中任意语义方向文字的方法。特别涉及基于尺度自适应及方向注意力网络的场景文字识别方法。

背景技术

随着信息科技的发展,图像作为一种流行的信息载体,在我们的生活中扮演着不可或缺的作用。而图像中的文字是一种高层的视觉元素,其蕴含着丰富而精准的语义信息,十分有助于场景内容的理解。因此,识别出图像中的文字信息在许多实际应用中具有十分广阔的应用价值,主要体现在四个方面。其一,基于内容的图像检索。图像中的文字信息能有效解决图像内容的模糊性;并且与场景内容结合,能更深层次的理解图像内容,从而可以根据关键性信息检索到更加精准的图像。其二,人机交互系统。当人们在逛街或商城的时候,经常遇到诸多广告牌,海报,店铺招牌,菜单等,然而这些信息通常含有不同语言的文字信息。因此通过移动设备采集图像,并对其中的文字元素加以识别,其能给人们的生活带来诸多方便。其三,净化网络空间。许多不法分子利用图像为载体,在图像中嵌入一些低俗色情的文字在网络空间中进行传播。识别出图像中的不良文字信息,阻止此类信息的传递,有助于保护未成年的身心健康。其四,智能交通系统。在户外环境中,精准的识别车牌以及交通指示牌,对于交通的智能化管理都有着积极的作用。

相比于传统的光学字符识别(Optical Character Recognition, OCR), 自然场景文字识别(Scene Text Recognition, STR)具有诸多的挑战。主要体现在以下几方面。其一,OCR针对的是扫描文档,其画质清晰,背景单一;而STR 针对的是自然场景图像,由于拍摄时抖动,光照或者拍摄角度等因素,容易造成拍摄得到的图片模糊,分辨率低,文字遮挡等困难。其二,OCR处理的文字通常大小一致,颜色均一,排列整齐;而STR针对的文字往往字体各异,颜色多样,布局丰富,从而增加了文字识别的困难。

基于深度神经网络的场景文字识别主要分为两大类,分别是规则场景文字识别和不规则场景文字识别。规则场景文字的识别是指针对水平正面的文字的识别,其识别方法可以分为三类,分别是基于字符,基于单词和基于序列的识别方法。基于字符的识别方法首先检测位置,然后利用深度神经网络对单个字符进行分类,最后通过启发式算法及语言规则将单个字符的分类结果聚合起来形成最终的结果。基于单词的识别即利用深度神经网络直接对整个单词进行分类。基于序列的识别,首先将输入的图像编码成序列特征,然后利用基于注意力机制的序列解码器或联结主义时间分类(Connectionist TemporalClassification, CTC)来将序列特征解析成文本字符串。不规则场景文字的识别是指针对不规则场景文字的识别,如多种方向,透视畸变,弯曲排列等。其识别方法可分为三类,分别是基于矫正,基于二维空间以及基于方向特征编码的识别方法。基于矫正的识别方法首先利用一个矫正网络将不规则文字矫正成水平或近似水平的文字,然后利用规则文字识别器加以识别;矫正网络与识别网络结合在一起端到端训练,矫正网络不需要监督信息,该矫正网络的学习依靠识别网络的梯度回传得以完成。基于二维空间的识别方法是利用全卷积网络提取输入图像特征,以保持文字的空间信息不受损失;然后基于二维空间的注意力机制或者二维空间中每个位置的类别分割来加以识别。基于方向特征编码的识别方法首先将输入图像映射成多个方向的一维特征;然后为每个方向以及每个方向中的每个位置学习一个权重,通过学到的权重将所有的方向特征融合在一起形成一个更具表达性的特征;最后利用一维的注意力解码器解析生成识别结果。

目前,场景文字的识别主要致力于几何布局不规则文字的识别,鲜有研究关注于文字语义方向的任意性;然而实际的应用中,任意语义方向的场景文字经常出现。此外,由于场景文字中每个字符的尺度多样,已有的方法均未考虑单个字符精准的特征编码。因此针对任意语义方向任意尺度的场景文字识别是一个面向实际应用的研究热点。

发明内容

针对任意语义方向以及单个字符不同尺度的场景文字,本发明提出了一种基于尺度自适应以及方向注意力网络的场景文字识别方法。由于需要同时考虑文字的尺度和方向,为此将原始图像映射到极坐标空间中。为了精确感知文字中单个字符的尺度,根据感受野理论,利用多种适度的感受野进行自适应的选择。

本发明的技术方案如下:

一种基于尺度自适应及方向注意力网络的场景文字识别方法,包括以下步骤:

(1)将输入图片映射到极坐标空间中得到极坐标图像,并利用卷积网络提取极坐标图像的特征J;

(2)利用深度卷积网络将图片在极坐标空间中的特征表达转换成高阶的语义特征F;

(3)对步骤(2)转换得到的高阶语义特征F,利用字符感受野注意力机制对每个字符编码更相关区域的特征,获取鲁棒的特征表达并离散成为特征序列Q;

(4)利用双向长短记忆网络捕捉特征序列Q之间的上下文关系,获取特征序列H;

(5)将特征序列H输入至解码网络进行解析,生成语义顺序规则的文字字符串。

进一步地,在所述步骤(1)之前,还包括输入图片的转换步骤:将任意大小的彩色输入图片转换成固定大小的灰度图片,其大小表示为H×W。

进一步地,所述步骤(1)具体包括如下子步骤:

(1.1)利用一个浅层小网络学习极坐标原点响应图;然后根据极坐标原点响应图以及相应的空间位置加权获得极坐标原点;所述浅层小网络由三个卷积层及其后跟随的整流单元、批归一化层组成;

(1.2)根据笛卡尔坐标与极坐标的转换关系,将极坐标空间中的坐标位置映射到笛卡尔空间中的位置上;每个极坐标空间中的位置上的数值通过基于与之对应的笛卡尔坐标位置邻近的四个位置进行双线性插值得到,从而获得极坐标图像;

(1.3)利用卷积网络获取极坐标图像的特征J;其中,在卷积填充时,对极坐标图像竖直方向进行循环填充,即最上面的行将由最下面的行进行填充,反之最下面的行由最上面的行进行填充。

进一步地,所述步骤(2)具体为:

利用卷积网络对特征J进行下采样,其中竖直方向降采样成1,水平方向降采样为L获得高阶的语义特征F,特征维度表示为1×L×D,其中D表示特征通道数。

进一步地,所述步骤(3)具体包括如下子步骤:

(3.1)将高阶的语义特征F输入至一个标准卷积和K-1个膨胀率不同的膨胀卷积中,获取多尺度特征 F

(3.2)将多尺度特征 F

(3.3)将多尺度特征F

进一步地,所述步骤(4)中,双向长短记忆网络包含D个神经元。

进一步地,所述步骤(5)具体为:

所述解码网络为基于门循环单元的递归神经网络,对于每个解码时刻t,利用一个多层 感知机学习门循环单元网络的隐状态

本发明的有益效果是:

1. 本发明将极坐标转换应用于序列文字识别中,能有效感知任意方向和任意尺度的文字, 从而显著提升识别效果。

2. 本发明提出了字符感受野注意力机制,能为不同尺度的字符编码更相关的特征,从而显著提升识别效果;并且该机制简洁有效,可以非常简单地嵌入到已有的序列识别模型(如场景文字识别,手写体识别,语音识别等)中以提升识别性能。

综上所述,本发明提出的基于尺度自适应及方向注意力网络的场景文字识别方法, 能有效的识别任意方向的场景文字。对于文字中不同尺度的字符也能有效学习到更好的特征表达,从而整体提升识别性能,本发明具有实际的应用价值。

附图说明

图1为本发明方法流程图;

图2为极坐标转换过程图;

图3为任意语义方向场景文字识别网络结构图;

图4为字符感受野注意力机制原理图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了一种基于尺度自适应及方向注意力网络的场景文字识别方法,如图1所示,其步骤为:

(1)将输入图片映射到极坐标空间中得到极坐标图像,并利用卷积网络提取极坐标图像的特征J;

(2)利用深度卷积网络将图片在极坐标空间中的特征表达转换成高阶的语义特征F;

(3)对步骤(2)转换得到的高阶语义特征F,利用字符感受野注意力机制对每个字符编码更相关区域的特征,获取鲁棒的特征表达并离散成为特征序列Q;

(4)利用双向长短记忆网络捕捉特征序列Q之间的上下文关系,获取特征序列H;

(5)将特征序列H输入至解码网络进行解析,生成语义顺序规则的文字字符串。

根据本发明方法,构建得到的任意语义方向场景文字识别网络结构如图2所示,具体包括极坐标特征转换模块、特征编码模块和文字序列解码模块。

在本发明的一实施例中,在所述步骤(1)之前,还包括输入图片的转换步骤:将任意大小任意语义方向的场景文字图像转换成H×W的灰度图 I,其中H,W表示灰度图的高和宽。

在本发明的一实施例中,所述步骤(1)在极坐标特征转换模块中将输入的图像转换成极坐标空间下的特征表达,网络结构及流程如图2所示,其具体步骤为:

(1.1)利用一个浅层小网络作为极坐标原点相应预测网络学习极坐标原点响应图;然后根据极坐标原点响应图以及相应的空间位置加权获得极坐标原点;具体地,包括如下子步骤:

(1.1.1)利用一个四层卷积的小网络学习极坐标位置响应,该网络前三个卷积层后跟随线性整流单元(Rectified Linear Unit, ReLU)和批归一化(batch normalization,BN)。

(1.1.2)根据极坐标位置响应图O,以及响应图O中水平位置坐标矩阵E

其中k表示极坐标响应图O中的位置索引。

所述浅层小网络是根据文字字符串的反馈信息进行弱监督学习。

(1.2)如图3所示,根据笛卡尔坐标与极坐标的转换关系,将极坐标空间中的坐标位置映射到笛卡尔空间中的位置上;每个极坐标空间中的位置上的数值通过基于与之对应的笛卡尔坐标位置邻近的四个位置进行双线性插值得到,从而获得极坐标图像;具体地,包括如下子步骤:

(1.2.1)构建一个与输入图像I同等大小的极坐标图像P。其中,图像I, P的坐标归一到[-1,1],他们之间的坐标映射计算方式如下:

其中(

(1.2.2)根据获得到的映射坐标 (

(1.3)利用卷积网络获取极坐标图像的特征J;具体为:对极坐标图像P竖直方向进行循环填充,即P中最上面的一行利用最下面一行进行填充,反之最下面一行利用最上面一行进行填充。然后利用M个3×3的卷积核(其后跟随一个整流单元和批归一化层)学习获得极坐标图像在极坐标空间中的特征表达J。

在本发明的一实施例中,利用多个卷积层和池化层构成的卷积网络对特征J进行下采样,其中竖直方向降采样成1,水平方向降采样为L获得高阶的语义特征F,特征维度表示为1×L×D,其中D表示特征通道数。

在本发明的一实施例中,利用字符的感受野注意力机制为每个不同尺度的字符学到更加有效的特征表达并离散成为特征序列Q,其原理示意如图4所示,具体在特征编码模块中实现,其网络结构及流程如图2所示,步骤如下:

(3.1)基于高阶语义特征表达F, 利用深度特征提取器即一个1×1的卷积层生成特征表达F

(3.2)将F

(3.3)将多尺度特征F

其中W

在本发明的一实施例中,将自适应增强后的特征序列

在本发明的一实施例中,针对任意语义方向的场景文字,利用文字序列解码模块(如图2所示)作为解码网络生成文字语义顺序正确并且识别结果精准的文字字符串。此处的解码网络是利用的递归神经网络,其中每个网络单元是可选的,此处实例采用的是门循环单元(Gated Current Unit, GRU)。在每个解析时刻,利于序列注意力机制自动学习字符串与序列特征H之间的对齐关系,其具体步骤如下:

(5.1)利用一个多层感知机学习GRU的隐状态与序列特征之间的关联度,其计算方式如下:

其中

(5.2)第t个解析时刻的关联特征通过加权组合得到,其计算方式如下:

(5.3) 更新 GRU在第t时刻的隐状态,其计算方式如下:

其中y

(5.4)获取每个时刻t的输出概率分布,其计算方式如下:

y

其中

在学习过程中,所用到底损失函数如下表示:

其中

下面,结合具体的实施例,对本发明方法效果作进一步说明。

本发明提出的基于尺度自适应及方向注意力网络的场景文字识别方法,其测试环境及实验结果为:

(1)测试环境:

系统环境:ubuntu16.04;

硬件环境:内存:128GB,GPU:NVIDIA GTX 1080Ti,CPU: 1.70 GHz Intel(R) Xeon(R)E5-2609, 硬盘:4TB;

(2)实验数据:

本发明的方法构建的模型是在合成数据集Synth90k (约九百万张单词图片)和SynthText (约四百万张单词图片)上进行训练的。本发明在五个数据集上进行了评估,分别是IIIT5K(3000张训练图片,2000张测试图片);SVT(647张测试图片);ICDAR03(1007张测试图片);ICDAR13 (1095张测试图片);ICDAR15 (2077 张测试图片)。利用的评估标准是大小写不敏感的单词正确率。在评估时,为了获取不同的语义方向文字,我们将原始的图像旋转0度,90度,180度,270度。字符数目为36,包括26个英文字母+10个数字。

(3)优化方式:

采用ADAELTA 优化方法,其中,图像的大小H×W设置为100×100,卷积网络中,L设为23,K设为4,即包含3个膨胀卷积层,,特征通道数D设为256,T设置为100。训练时小批量(minibatch)的大小设置为128。

(4)实验结果:

1)消融实验:

该实验在IIIT5K测试集上进行的评估,为了公平比较,训练时只在Synth90k这个数据集上进行;在模型推断时,利用贪心选择策略获取识别结果,并且没有用字典对最终的预测结果进行矫正。Baseline-A指先训练一个语义方向分类网络, 即0度,90度,180度,270度四分类网络;然后利用流行的水平文字识别器CRNN(B. Shi, X. Bai, and C. Yao, “Anend-to-end trainable neural network for image-based sequence recognition andits application to scene text recognition,”

2)性能比较:

与其他方法相比时,利用合成数据集Synth90k和SynthText 训练模型。在模型推断时,集束搜索的宽度β设置为5,并且利用数据集提供的最大的字典集合对预测进行矫正,即在字典中选择与预测结果编辑距离最小的字符串作为最终结果。如果数据集未提供字典,则将测试集中所有的真值放于一个集合中构成字典。性能如下表2所示,其显示的大小写不敏感的单词准确率为四个语义方向(0度,90度,180度和270度)上的平均性能,结果表明我们的方法对于语义方向文字识别的鲁棒性与优越性。

表中:

Tesseract-COR方法参见“Tesseract-OCR v4.0,” https://github.com/tesseract-ocr/tesseract/releases.

GRCNN方法参见 J. Wang and X. Hu, “Gated recurrent convolution neuralnetwork for OCR,” in

ALE方法参见 S. Fang, H. Xie, Z. Zha, N. Sun, J. Tan, and Y. Zhang,“Attention and language ensemble for scene text recognition withconvolutional sequence modeling,” in

ASTER方法参见 B. Shi, M. Yang, X. Wang, P. Lyu, C. Yao, and X. Bai,“ASTER: An attentional scene text recognizer with flexible rectification,”

MORN-v2方法参见 C. Luo, L. Jin, and Z. Sun, “MORAN: A multi-objectrectified attention network for scene text recognition,”

SAR方法参见 H. Li, P. Wang, C. Shen, and G. Zhang, “Show, Attend andRead: A simple and strong baseline for irregular text recognition,” in

从上面的实验中可以清楚的看到,本发明所涉及到的极坐标转换和字符感受野注意机制均有效。二者用于任意语义方向场景文字的识别能达到良好的性能和鲁棒性。

以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明范围,本发明的保护范围应以权利要求书所述为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号