公开/公告号CN113869311A
专利类型发明专利
公开/公告日2021-12-31
原文格式PDF
申请/专利权人 中通服创立信息科技有限责任公司;
申请/专利号CN202111144328.7
申请日2021-09-28
分类号G06K9/32(20060101);G06K9/34(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人王宝筠
地址 610000 四川省成都市高新区神仙树北路14号
入库时间 2023-06-19 13:29:16
技术领域
本发明涉及一种对图形文件进行分析,获取其中文字信息并以文本形式反馈的方法。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
传统的文档OCR文字识别技术,他是有对图片上的内容进行认识分析的过程,其中比较重要的就是有个四要素,横排文本、竖排文本、表格、配图;每一个作者所写的材料,文章等文件中都是由这四个基本要素组成。所以在传统的文档OCR识别技术中,算法会先分析图片中有几个布局区域,然后分析出水平横向文字,竖向垂直文字,表格和配图照片等区域,然后在针对各自的特点进行切分字符,保留区域类型,进行OCR识别调整;所以可以适应各种类型的文本识别。
但是对于背景比较复杂的图片,各个领域形式丰富多样的图片,传统的OCR技术就无能为力了。后续也出现了tesseract-ocr等基于深度学习的OCR技术,但是算法更新较慢,识别率不高。
发明内容
有鉴于此,本发明提供一种高识别率的光学字符识别方法,旨在提高复杂背景图片中文字识别的准确率。
为解决以上技术问题,本发明的技术方案为:一种高识别率的光学字符识别方法,包括:对待识别的图片进行裁剪,保留核心区域;对裁剪后的图片进行预处理;对预处理后的图片进行文字检测;基于文字检测结果进行文字识别;输出文本文字。
作为一种改进,所述对待识别的图片进行裁剪包括:显示待识别的图片;生成取景模板,对图片中的标志性图形进行框选;调整裁剪框,框选核心区域;裁剪。
作为一种改进,调整裁剪框的同时对裁剪后的图片进行预览。
作为一种优选,所述对裁剪后的图片进行预处理包括:灰度化、二值化、降噪、核心区域定位、图像角度旋转。
作为一种改进,所述图像角度旋转包括:通过人脸识别算法判断图片中的头像位置是否准确,若不准确则旋转图片,直到头像位置准确为止。
作为一种优选,对预处理后的图片进行文字检测采用CTPN深度学习算法实现,包括:标注出图片中文字所在的区域;对标注后的图片进行模型训练,并对输出模型进行验证。
作为一种改进,所述标注出图片中文字所在的区域包括:利用VGG16进行图像分类获取特征图;利用Anchor预测对特征图中的文字部分进行标注。
作为一种改进,所述基于文字检测结果进行文字识别为采用Densenet深度学习算法进行文字识别。
本发明的有益之处在于:
1.使用人脸识别算法对身份证进行图像角度纠正,纠正效果好。
2.方案基于海量证件数据,训练深度学习模型来实现OCR。核心算法设计CTPN和Densenet两网络的信息融合,分别用于字符检测和字符识别,识别率高。
3.针对新增样本的适应性好,泛化能力强。
4.该方法可以充分利用计算机的强大计算能力,使得识别速度更快,精度更高。
5.该方法可以自适应的提取文本图片特征,特征的提取和筛选不依赖于人工,属于高效的智能识别算法。
附图说明
图1为本发明的流程图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合具体实施方式对本发明作进一步的详细说明。
在信息飞速发展的今天,图像识别需求越来越多,涉及的领域也越来越广,特别是OCR领域。目前OCR技术很重要通信面临以下三个挑战:
(1)成像复杂,经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题。
(2)背景复杂,图片背景极为丰富,背景干扰大,还有版面缺失等问题。
(3)文字复杂,包括:字体多样、字号字重颜色不一、磨损、笔画宽度不固定、方向任意等。
为了使上述问题得到解决,我们提出了基于CTPN+Densenet深度学习算法的新型光学字符识别方案,针对不同领域的图片样本进行训练,可应用于更多的场景中。
如图1所示,本发明提供一种高识别率的光学字符识别方法,包括以下步骤。
S1对待识别的图片进行裁剪,保留核心区域;所谓核心区域即承载文字的物体所在的区域,例如要识别身份证上的文字,其核心区域就为身份证本身。
对图片的裁剪又包括以下步骤。
S11显示待识别的图片;在客户端如计算机、手机屏幕上显示待识别的图片。
S12生成取景模板,对图片中的标志性图形进行框选;例如身份证的标志性图形就是人像。系统生成一个人像外轮廓的取景模板,操作者通过调整图片的大小和位置,使得人像正好位于取景模板中,用于确定图片的大小和位置。
S13调整裁剪框,框选核心区域;通过上一步的定位后,调整裁剪框的大小,将需要保留的部分框选起来。在此过程中,可对裁剪后的图片进行预览。
S14裁剪,裁剪后的图片只留下核心区域。
S2对裁剪后的图片进行预处理;具体包括:灰度化、二值化、降噪、核心区域定位、图像角度旋转。通过灰度化对图片进行处理最大程度保留图片细节,其主要算法有分量法、最大值法、平均值法、加权平均法,然后对图片进行二值化处理,使图片只剩下纯白和纯黑两种颜色,但可能会包括噪身。继而采用均值滤波器、形态学噪声滤除器算法消除噪声。核心区域定位可以提升特征提取的效果,包括自动裁剪,需要结合待识别图片制定定位策略。图像角度纠正,对待识别图像进行旋转,调整其角度,使得图像上的文字不偏不斜。
如果需要识别的图片是身份证,那么图像角度旋转的方法可以是通过人脸识别算法判断图片中的头像位置是否准确,若不准确则旋转图片,直到头像位置准确为止。
S3对预处理后的图片进行文字检测采用CTPN深度学习算法实现;具体包括:
S31标注出图片中文字所在的区域,具体又包括:
S311利用VGG16进行图像分类获取特征图;
S322利用Anchor预测对特征图中的文字部分进行标注。
S32对标注后的图片进行模型训练,并对输出模型进行验证。具体为采用双向LSTM进行模型训练并对输出模型进行训练。
预处理后的图片将送入深度学习模型中用于训练。CTPN结合了CNN与LSTM深度网络,能有效的检测出复杂场景的横向分布的文字。该方法将文本行拆分为slice,并预设多个不同规模的Anchor用于定位文字的位置,其中所采用的具有时序特性的双向LSTM层,提高了识别的准确率。
S4基于文字检测结果进行文字识别;具体为采用Densenet深度学习算法进行文字识别。
S5输出文本文字。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
机译: 在光学字符识别装置中提高字符识别率的方法
机译: 基于监视技术的层析成像识别方法,该方法使用可变块,通过使用可变块提取块图像的特征向量来实现层析成像的高识别率
机译: 利用可实现高识别率系统的运动历史图像的形状信息实时识别运动的方法和系统