首页> 中国专利> 基于多分辨自动编码器的光学符号识别方法

基于多分辨自动编码器的光学符号识别方法

摘要

本发明公开了一种基于多分辨自动编码器的光学符号识别方法,首先,指定分块大小,对图像进行随机采样,获得若干大小一致的图像块。接着,对图像块使用指定参数的Gabor滤波器组进行滤波,获得含有多尺度多方向信息的Gabor特征。随后,基于倒金字塔格式的采样布局,以不同的空间采样率对图像块上相应尺度的Gabor特征进行均匀采样,实现大尺度特征对小尺度特征感受野的充分覆盖。最后,将加噪图像块及其对应的Gabor特征采样分别作为多分辨自动编码器的主分支输入与副分支输入进行高维特征的学习与融合。本发明公开的拟孪生神经网络,旨在获得一组融合的高维特征,既能学习输入图像的基本形状特征,又能自动学习Gabor滤波器组提取的多尺度纹理特征。分类识别时,较之降噪自动编码器,本发明以相同的计算量,获取了更加丰富的特征信息,对光学符号取得了更高的识别精度。

著录项

  • 公开/公告号CN112818978A

    专利类型发明专利

  • 公开/公告日2021-05-18

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN202110301000.5

  • 发明设计人 金立左;许歆逸;张向向;阎俊;

    申请日2021-03-22

  • 分类号G06K9/20(20060101);G06K9/34(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32206 南京众联专利代理有限公司;

  • 代理人薛雨妍

  • 地址 210096 江苏省南京市玄武区四牌楼2号

  • 入库时间 2023-06-19 11:02:01

说明书

技术领域

本发明涉及人工智能、计算机视觉、机器学习领域;尤其涉及基于多分辨自动编码器的光学符号识别方法。

背景技术

自动编码器是一种无监督学习算法,1986年由Rumelhart首次提出。2006年Hinton等人提出深度自动编码器,相比基础自动编码器,深度自动编码器增加了隐含层层数,增强了隐含层表达能力。2007年Bengio等人在此基础上提出堆叠自动编码器,使网络在监督学习阶段更快的迭代收敛。随后,Vincent等人在2008年和2010年分别提出降噪自动编码器和堆叠降噪自动编码器,通过引入噪声,提高自动编码器训练所得特征的鲁棒性。2010年Rifai等人提出压缩自动编码器,通过收缩隐含层,对维度加以约束,提高特征表达能力。2011年Masci等人提出卷积自动编码器,用于构建卷积自动编码网络。上述自动编码器的发展历程中,始终以重建特性为训练目标,仅仅学习输入图像的结构特征,缺乏多尺度多分辨纹理信息,在光学字符识别中,难以取得令人满意的结果。尤其在遇到旋转、缩放和其它图像畸变时,传统自动编码器难以保持较高识别精度。

Gabor特征是1946年D.Gabor提出的可用于描述图像纹理的特征,Gabor滤波器涉及的频率和方向与人类视觉系统类似,特别适合纹理表示。2003年Qin等人将Gabor特征用于车牌字符识别,取得较好效果。2008年Li等人利用Gabor特征与LMBP神经网络进一步提高车牌字符识别准确率。2012年Luo等人将Gabor变换用于中文字符特征提取。2015年Zhong等人在中文光学字符识别中将原始图像与其Gabor滤波结果一同作为网络输入,增强网络性能。2018年Luan等人提出Gabor卷积网,将特定Gabor滤波器组与学习得到的CNN卷积核逐元素相乘,赋予CNN卷积核Gabor多尺度多方向特性。上述方法中,除Luan等人的Gabor卷积网,其它算法都是将Gabor变换作为特征提取手段,提取特定参数的Gabor特征,用于光学字符识别。然而,仅依靠人工设计的多尺度多方向Gabor特征,不足以达到利用CNN学习得到的滤波器性能,难以将精度进一步提高。Luan等人的Gabor卷积网将Gabor滤波器作为一种“指导”,强制CNN学习的滤波器具有多尺度多方向特性,但是CNN网络参数量庞大,引入Gabor滤波器提高精度的同时,计算量也会随之骤增。

综上所述,传统自动编码器在光学字符识别上,受限于重建输入的特性,难以学习到除图像基本结构以外的多尺度多方向特征;Gabor特征具有多尺度多方向特性,往往被用于特征提取,但是单一的Gabor特征无法进一步提高光学字符识别精度,且人工设计的Gabor滤波器无法有效应用在神经网络中,无法在不显著增加计算量的同时,指导神经网络自发学习多尺度多分辨特性。

发明内容

为解决上述问题,本发明公开了一种基于多分辨自动编码器的光学符号识别方法,在保持模型较低计算量的前提下,尽可能提高分类识别精度,并且对旋转、缩放和其它图像畸变具有较高的鲁棒性。

本发明的技术方案如下:

本发明旨在针对光学符号识别,发明一种多分辨自动编码器。使用拟孪生神经网络(Quasi-Siamese Network)结构,向降噪自动编码器中引入经过编码的多分辨Gabor特征信息,增强降噪自动编码器隐含层的特征表达能力,在保持模型较低计算量的前提下,尽可能提高模型的分类识别精度,可以在计算资源有限的软硬件环境如边缘计算平台上部署使用。

本发明的算法能够将降噪自动编码器的重构特性与Gabor特征的多分辨特性相结合,在同等模型规模下,赋予降噪自动编码器多分辨特征学习能力,使其能够对旋转、缩放和其它图像畸变具有较高的鲁棒性。

用于无监督学习的损失函数如下:

其中,h

基于上述损失函数,降噪自动编码器的隐含层在保持重建特性的前提下,尽可能具备Gabor特征独有的多尺度纹理判别特性。与此同时,向拟孪生神经网络副分支引入稀疏约束,以降低数据聚集效应,增强特征有效性及鲁棒性。

本发明公开的一种基于多分辨自动编码器的光学符号识别方法,包括如下步骤:

步骤1,光学符号图像随机采样及预处理;

步骤2,光学符号图像多分辨特征提取;

步骤3,构建无监督特征学习网络;

步骤4,构建损失函数并训练网络,迭代搜索最优参数;

步骤5,提取测试图像特征,引入分类识别网络进行分类识别。

本发明进一步改进在于:步骤1中,对输入图像X进行随机分块采样,分块大小为(s×s),样本总量为N,采样结果记作

本发明进一步改进在于:步骤2中,对光学符号图像进行多分辨特征提取;Gabor特征常被用于提取图像的边缘特征。由于Gabor滤波器对于边缘的敏感特性,该特征能够提供良好的方向和尺度选择特性,且对光照变化不敏感,能够提供对光照变化良好的适应性,所以Gabor特征被广泛应用于图像处理领域。对步骤1中随机采样结果

本发明进一步改进在于:步骤3中,构建用于无监督特征学习的拟孪生神经网络。以降噪自动编码器为主分支,以单层前馈神经网络为副分支,构造拟孪生神经网络。向步骤1中随机采样结果

本发明进一步改进在于:步骤4中,构建用于优化拟孪生神经网络的损失函数。损失函数分为三部分:第一部分,以步骤3中主分支降噪自动编码器的解码结果

本发明进一步改进在于:步骤5中,对输入的测试图像X

本发明的有益效果:

本发明对光学符号图像取得高识别精度的前提下,可以减少模型计算量,使其能够在边缘计算等软硬件资源有限的平台上实时识别光学符号;与此同时,该特征还对光学符号的旋转、缩放及其它畸变具有较好的鲁棒性,能够在较低的计算量下,获得甚至超过传统卷积神经网络(CNN)的识别性能,此外在一些非光学符号数据集上也表现出了优异的识别性能。

1、特殊的网络结构

本发明的关键在于网络结构。本发明的网络结构是以降噪自动编码器(DenoisingAuto-Encoder)为基础结构,利用Quasi-Siamese结构,向降噪自动编码器的隐含层引入Gabor滤波器提取的、具有多尺度及纹理信息的特征约束,使得降噪自动编码器编码得到的特征,在维持重构输入特性的基础上,赋予其Gabor特征的多尺度及纹理分辨特性。使其能够在较低计算量的前提下,保证对光学符号图像及其畸变图像取得高识别精度。

2、优异的识别性能

本模型在多个公开数据集上都表现出了优良性能:在真实车牌数据集上测试,汉字的识别率达到98.9%,字母及数字的识别率达到99.7%;在MNIST光学数字数据集上,识别精度达到99.4%,拥有与大型卷积神经网络相当的识别精度的同时,参数量更少,即使在MNIST-rot数据集上,测试识别精度也能够与大型CNN网络相媲美,达到94.1%;面对Fashion-MNIST这样的非光学符号数据集也表现出非常优异的识别性能,识别精度达到93.97%。

附图说明

图1为多分辨自动编码器结构示意图;

图2为MNIST图像随机采样结果示意图;

图3为对随机采样图像块Gabor滤波结果示意图;

图4为倒金字塔采样示意图;

图5为降噪自动编码器结构示意图;

图6为MNIST图像全采样结果示意图;

图7为孪生神经网络结构示意图。

具体实施方式

下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

本实施例提出一种基于多分辨自动编码器的光学符号识别方法,提出了一种用于无监督特征学习的拟孪生神经网络(Quasi-Siamese Network);该网络包括多分辨特征提取和无监督特征学习两个关键处理模块,能够自动学习输入图像的多分辨特征,如图1所示,包括如下步骤:

步骤1中,对用于训练的光学符号图像X,进行随机分块采样,分块大小为(s×s)|

步骤2中,对光学符号图像进行多分辨特征提取。Gabor特征常被用于提取图像的边缘特征。由于Gabor滤波器对于边缘的敏感特性,该特征能够提供良好的方向和尺度选择特性,且对光照变化不敏感,能够提供对光照变化良好的适应性,所以Gabor特征被广泛应用于图像处理领域。对步骤1中随机采样结果

步骤3中,构建用于无监督特征学习的拟孪生神经网络。以降噪自动编码器为主分支,以单层前馈神经网络为副分支,构造拟孪生神经网络。降噪自动编码器结构示意如图5所示。向步骤1中随机采样结果

步骤4中,构建用于优化拟孪生神经网络的损失函数。损失函数分为三部分:第一部分,以步骤3中主分支降噪自动编码器的解码结果

步骤5中,对用于测试的光学符号图像X

本发明对光学符号图像取得高识别精度的前提下,可以减少模型计算量,使其能够在边缘计算等硬件资源有限的平台上实时识别光学符号;与此同时,该特征还对光学符号的旋转、缩放及其它畸变具有较好的鲁棒性,能够在较低的计算量下,获得超过传统的大型卷积神经网络(CNN)的识别性能,甚至在一些非光学符号的数据集上也表现出了优异性能。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号