公开/公告号CN112819724A
专利类型发明专利
公开/公告日2021-05-18
原文格式PDF
申请/专利权人 广东电网有限责任公司广州供电局;
申请/专利号CN202110163992.X
申请日2021-02-05
分类号G06T5/00(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构42222 武汉科皓知识产权代理事务所(特殊普通合伙);
代理人王琪
地址 510620 广东省广州市天河区天河南二路2号
入库时间 2023-06-19 11:02:01
技术领域
本发明提供一种基于CNN的扫描文档图像增强方法,具体涉及一种深度学习模型构建和训练方法,属于图像处理算法领域。
背景技术
受印刷方式、油墨、承印物、保存方式和保存环境等多种因素的影响,传统纸质文档的长期保存较为困难,想要长期保存资料需要耗费大量的资源。此外,传统纸质文档在信息传播、复制、共享等方面存在天然的缺陷,并且空间占用较数字存储方式也更多,因此,很多传统纸质资料被通过数字化的方式进行重采样。数字媒体具有空间占用小、存储简单、复制和传播成本低等特点,因此被更加广泛的使用。而在传统纸质文档数字化的过程中,需要对纸质文档通过扫描、拍照和OCR等方式进行重采样,但往往在重采样的过程中,受纸张破损、褶皱,以及油墨颜色减退等因素影响,导致重采样结果不佳,目视结果较差,以及不能进行光学字符识别等问题。因此,对重采样结果的增强和修复是解决这一问题的方法之一,通过构建性能较好、适应性强的模型,对退化结果进行修复,将大大提升文档的主观可读性,并为OCR工作提供特征清晰的输入。
为了解决上述存在的问题,以往的图像增强方法根据文档的退化方式设计特定的算法来增强图像原有信息的表达,由于需要一定的退化先验信息,因此构建与真实情况一致的退化模型是完成图像增强的关键,但在实际应用中,文档图像的退化受多方面因素影响,很难人为建立完美的退化模型。此外,OCR技术是机器视觉领域的方法,机器视觉对于图像有效特征的利用与人眼视觉系统有着很大的区别,因此主观的提升图像的人眼视觉可读性,未必能够提升OCR的质量。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于CNN的扫描文档图像增强方法。该方法主要通过对图像的细节进行重建和字符特征进行增强,解决传统纸质文档在使用扫描仪、照相机进行重采样后,获得的数字图像可读性低、OCR性能差的问题。
本发明的技术方案是:通过已有清晰重采样扫描文档建立训练样本集,使用TensorFlow框架搭建神经网络模型,基于大规模数据集预训练的模型参数进行迁移学习,使用深度学习模型和训练后参数对待处理的扫描稳当图像进行增强并输出。
本发明的方法包括如下步骤:
步骤1,对ground truth进行颜色空间转换和归一化处理,然后结合退化模型获取退化图像;
步骤2,构建深度学习模型;
所述深度学习模型由特征提取模块、特征非线性映射模块和图像重建模块构成,其中,特征提取模块由多个卷积层构成,卷积核均为3×3,特征非线性映射模块由一个1×1卷积层构成,图像重建模块由两个3×3卷积层构成;
步骤3,对退化图像与ground truth进行子图像划分处理,形成训练图像对;
步骤4,利用训练图像对训练深度学习模型;
步骤5,将待处理图像输入到训练好的深度学习模型中,得到增强后的扫描文本图像。
进一步的,步骤1中对ground truth进行颜色空间转换和归一化处理的具体实现方式如下;
首先,对ground truth进行颜色空间转换,将图像从RGB颜色空间转换为YCbCr颜色空间,并且仅保留Y通道的亮度信息,转换过程如下式所示:
Y=0.257×x
其中,x
将转换后的灰度图像进行归一化处理,如下式所示:
其中,Y为输入像素值,x为归一化像素输出值。
进一步的,步骤1中结合退化模型获取退化图像的具体实现方式如下;
通过组合随机加权的方法随机生成退化模型,利用颜色转换并归一化后的groundtruth和随机退化生成模型,获得用于模型训练的退化图像,退化图像生成过程如下式所示:
Z(x)=αB(x)+βG
其中,Z(x)为组合随机退化方法生成的退化样本;B(x)为bicubic方法退化图像;G
进一步的,θ∈{3,5,7}。
进一步的,采用以下方式对退化图像与ground truth进行子图像选取,退化图像以33×33大小14步长的部分重叠的方式选取子图像,在ground truth上对应位置上取居中的21×21像素选取子图像,形成训练图像对。
进一步的,采用梯度下降方式进行训练,mini-batch大小设置为128,学习率初始化为5×10
进一步的,所述深度学习模型中特征提取模块由4个卷积层构成,即深度学习模型包括7个卷积层,其中1、2层卷积核个数为128,3、4层卷积核个数为64,第5层卷积核个数为32,第6、7层卷积核个数为1,7个卷积层的步长均为1。
通过本发明所提供的深度学习模型和训练方法,增强了扫描文本图像的清晰度,提高了OCR的文本检测率和文本识别率。
与现有技术相比,本发明的优点和有益效果:本发明以自监督的方式实现了在小样本数据集上的退化图像增强,所需数据量小,生成图像的质量更高,且对未知数据的适应性更强,模型结构简单,运行性能较快。
附图说明
图1是本发明提出的深度学习的模型结构。
图2是用于生成训练样本的ground truth。
图3是ground truth经bicubic方法退化的结果。
图4是ground truth经高斯滤波退化的结果。
图5是ground truth经组合随机退化方法的结果。
图6是真实退化的扫描文档图像。
图7是退化文本图像经本发明方法增强后结果。
具体实施方式
本发明的整体技术方案包括:训练样本生成、学习模型搭建、数据预处理、模型训练和文本增强推理。下面结合附图和实施例对本发明的技术方案作进一步说明。
(1)训练样本生成:
首先,对ground truth进行颜色空间转换,将图像从RGB颜色空间转换为YCbCr颜色空间,并且仅保留Y通道的亮度信息,转换过程如下式所示:
Y=0.257×x
其中,x
将转换后的灰度图像进行归一化处理,如下式所示:
其中,Y为输入像素值,x为归一化像素输出值。
通过组合随机加权的方法,利用颜色转换并归一化后的ground truth和随机退化生成模型,获得用于模型训练的退化图像。退化图像生成过程如下式所示:
Z(x)=αB(x)+βG
其中,Z(x)为组合随机退化方法生成的退化样本图像,作为模型的输入用于模型训练,如图5所示;B(x)为bicubic方法退化图像,如图3所示;G
(2)深度学习模型搭建:基于TensorFlow开发框架,按照以下参数搭建深度学习模型。模型由特征提取模块、特征非线性映射模块和图像重建模块构成,其中,特征提取模块由四层卷积层构成,卷积和均为3×3,特征非线性映射模块由一层1×1卷积层构成,图像重建模块由两层3×3卷积层构成。1、2层卷积核个数为128,3、4层卷积核个数为64,第5层卷积核个数为32,第6、7层卷积核个数为1。此外,输入层是第一层卷积层,隐藏层是中间五层卷积层,输出层是第七层卷积层,在输入层和隐藏层之后添加了Leaky ReLU激活函数。每层均不采用padding,输入层输入的小图像块大小为33×33像素,输出层输出为21×21像素。
表1深度学习模型的结构
(3)数据预处理:为了降低模型对于内存容量的需求,本发明使用固定大小的子图像(mini image)作为模型的输入。由于模型没有采用上采样或反卷积操作,输入图像经深度学习模型处理后,图像尺寸会减小,因此采用以下方式对输入图像(即步骤(1)中的退化图像)和ground truth进行子图像选取。输入图像以33×33大小14步长的部分重叠的方式选取子图像,在ground truth上对应位置上取居中的21×21像素选取子图像,形成训练图像对。
(4)模型训练:模型采用梯度下降(Gradient Descent)方式进行训练,mini-batch大小设置为128。学习率初始化为5×10
(5)文本增强:将模型中所有参数的可训练参数改为False,将步长改为21,载入训练时获得的检查点文件(模型参数),以待处理图像为输入运行模型,图像经模型计算后获得处理后的子图像,将子图像按裁剪前位置对应关系采用拼接的方式生成完整的增强后的输出图像,得增强后扫描文本图像。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
机译: 一种方法和学习设备,用于使用用于硬件优化的1x1卷积的基于CNN的对象检测器,以及使用该测试方法和测试设备,使用1×1卷积的CNN基于CNN的对象检测器的学习方法和学习设备用于硬件优化,以及使用Samem的测试方法和测试设备}
机译: 扫描是一种基于标记类型的分类的方法和系统,该标记类型是文档图像中前景像素组的合并组
机译: 一种用于区分图像的系统,方法和计算机程序产品,该图像包括文档的原始扫描与非原始扫描的文档图像