首页> 中国专利> 一种基于存折、票据字符OCR识别方法和识别系统

一种基于存折、票据字符OCR识别方法和识别系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于存折、票据字符OCR识别方法和识别系统，属于模式识别与计算机视觉技术领域。包括如下步骤：步骤1、拍取的任意角度的存折图像，通过预处理得到角度校正后的新存折图像；步骤2、对存折图像的面向进行角度校正，调整至0°状态；步骤3、对校正后存折图像中待识别区域的位置进行定位，并构建待识别区域的对应标签；步骤4、采用不定长OCR识别模型对待识别区域进行识别，并输出识别结果。本发明通过OCR识别实现存折信息自动提取，减少了人工核验信息和录入信息的时间成本和人工成本，大大提高工作效率；通过采用深度学习模型进行OCR识别，加快了信息识别速度和识别准确率，针对不同印刷字体具有较高的鲁棒性。

著录项

公开/公告号CN112507914A

专利类型发明专利
公开/公告日2021-03-16

原文格式PDF
申请/专利权人江苏国光信息产业股份有限公司;
展开▼

申请/专利号CN202011482590.8
发明设计人孔飞;张文强;褚建民;李卫国;
展开▼

申请日2020-12-15
分类号G06K9/00(20060101);G06K9/32(20060101);G06K9/44(20060101);G06K9/46(20060101);G06K9/62(20060101);
代理机构32338 常州易瑞智新专利代理事务所(普通合伙);
代理人徐琳淞
地址 213000 江苏省常州市钟楼经济开发区松涛路52号
入库时间 2023-06-19 10:16:30

说明书

技术领域

本发明属于模式识别与计算机视觉技术领域，尤其是一种基于存折、票据字符OCR识别方法和识别系统。

背景技术

近年来计算机视觉技术快速发展，图片文字的OCR识别成为热门方向，目前对于自然场景和金融票据等复杂背景下的OCR识别研究较多，且已经有成熟的应用，自动化的识别大大提高了工作效率。本专利针对银行存折信息提取方面效率低下，人工提取信息准确率降低等问题设计自动化的存折信息提取系统。

申请人通过长期的实践和研究，发现现有技术中至少存在如下问题：1、存折信息提取采用人工方式效率较低，且人工方式随时间增长准确率也会降低。2、目前已有OCR识别系统针对不同应用场景的兼容性不高，对进行识别文字图片偏移角度和图片质量要求较高，还需人工固定方向采集待识别图片。

发明内容

发明目的：提供一种基于存折、票据字符OCR识别方法和识别系统，以解决背景技术中所涉及的问题。

技术方案：一种基于存折、票据字符OCR识别方法，包括如下步骤：

步骤1、拍取的任意角度的存折图像，通过预处理得到角度校正后的新存折图像；

步骤2、对存折图像的面向进行角度校正，调整至0°状态；

步骤3、对校正后存折图像中待识别区域的位置进行定位，并构建待识别区域的对应标签；

步骤4、采用不定长OCR识别模型对待识别区域进行识别，并输出识别结果。

进一步地，所述步骤1中的预处理方法包括如下步骤：

步骤11、获取高拍仪拍取的任意角度的存折图像；

步骤12、对存折图像进行锐化和高斯平滑处理，增强图像边缘与周围背景的反差；

步骤13、再利用Sobel算子检测图像边缘，从横向和纵向两个方向与图像做卷积操作，获得梯度上的近似值后计算图像轮廓，获得的图像轮廓以点集形式保存，计算轮廓点集的凸包和凸包的外接矩形，进而计算出轮廓的四个顶点坐标；

步骤14、通过透视变换对存在角度偏移的存折图像进行校正，首先确定校正后新图像的坐标，由新坐标与原本存折图像坐标构建透视矩阵，透视矩阵为3×3矩阵，实现原图像到新图像的线性变换，平移变换和透视变换；

步骤15、存折图像经透视矩阵变换后，即可获得角度校正后的新图像。

进一步地，所述步骤2中角度校正方法为：

利用训练后的SVM分类器对透视变换后的图片进行角度检测，根据不同的检测角度翻转图片，获得图片为0°状态存折图像。

进一步地，所述步骤2中SVM分类器的训练方法，包括如下步骤：

步骤21、首先收集0°、90°、180°和270°翻转的四种类型文本图片预定数目；以SVM分类器对四种方向进行分类识别，构建图片与对应分类的标签，0°、90°、180°和270°分别对应标签1、2、3和4；

步骤22、提取图片的梯度直方图HOG特征，所述HOG特征反应图片的梯度变化信息，不同角度偏转的文字梯度信息不同；

步骤23、由于HOG特征维度较高，不利于分类器训练，采用主成分分析PCA方法对HOG特征降维；

步骤24、降维后的HOG特征作为输入特征训练SVM分类器，得到训练后的SVM分类器。

进一步地，所述主成分分析PCA方法，包括如下步骤：

步骤241、记共有s条d维HOG特征数据，将数据组合为s行d列的数据矩阵X；

步骤242、对矩阵每列计算其均值，组成1行d列矩阵

步骤243、计算新矩阵X'的协方差矩阵

步骤244、将特征向量按对应特征值大小从上到下按行排列为矩阵，取前K行组成矩阵P，降维到K维的HOG特征矩阵为Y＝PX。

进一步地，所述定位的方法为：以角度校正后存折图像左上角顶点坐标为固定点，由于固定点位置与存折中所需提取信息区域的位置偏移关系固定，因此以固定点坐标加上偏移量定位到所需提取的各个区域坐标，将所述区域截取出来，即为识别区域。

进一步地，所述不定长OCR识别模型以densenet网络结构为基础，模型输入为需要进行OCR识别的图片；首先进行批归一化处理BN层处理后送入第一层3×3的卷积层，该层的激活函数为Relu函数，经卷积层提取的图片特征送入denseblock层，模型有三个denseblock层，中间通过transition层进行连接，denseblock层包括BN层，Relu激活函数和3×3的卷积层，该层的特征图大小一致，每层的输入来自前面所有层的输入；Transition层连接两个denseblock层，降低特征图大小并且压缩模型；该层包括一个1×1的卷积层和2×2的平均池化层；最后第三个denseblock层输出的特征经过BN层和全连接层输出。

进一步地，所述不定长OCR识别模型的训练方法，包括如下步骤：首先根据所需识别的文字种类构建语料库，由语料库生成训练数据集和数据集的标签文件，标签文件包括训练数据名称和数据中汉字字符在语料库中的位置信息，生成训练集；使用训练集对所述网络结构进行训练，训练通过训练集在模型中前向计算结果的自动修改模型的权重值，多次训练后对所有训练集均有很高的识别率后停止训练并保存权重值至模型文件中。

进一步地，所述不定长OCR识别模型的识别方法为：识别时通过程序调用网络模型与模型文件，经softmax函数计算输出概率最高分类的标签文件，检索标签文件后输出最终识别结果。

本发明还提供一种基于存折、票据字符OCR识别方法的识别系统，包括：图像预处理模块、面向检测模块、定位模块和OCR识别模块四个模块。

图像预处理模块，用于拍取的任意角度的存折图像，并处理得到角度校正后的新存折图像；

面向检测模块，用于对存折图像的面向进行角度校正，调整至0°状态；

定位模块，用于对校正后存折图像中待识别区域的位置进行定位，并构建待识别区域的对应标签；

OCR识别模块，采用不定长OCR识别模型对待识别区域进行识别，并输出识别结果。

有益效果：本发明涉及一种基于存折、票据字符OCR识别方法和识别系统，相较于现有技术而言，至少存在如下优点：

1、通过图像预处理模块，对存折图像进行锐化和高斯平滑处理，增强图像边缘与周围背景的反差，提高存折图像可识别的质量；并通过透视变换对存在角度偏移的存折图像进行校正，实现对文字图片偏移角度的自动识别，对于任意角度获得的存折图像皆可进行信息提取，无需人工固定方向采集待识别图片，简化了使用要求。

2、提取图片的梯度直方图HOG特征，采用主成分分析PCA方法对HOG特征降维，有利于SVM分类器训练，实际应用中可能存在票据送入识别时是翻转90°或者180°情况，进而提高了分类器对票据文字方向的检测并矫正方向的计算速度和精准性。

4、OCR识别模块实现存折信息自动提取，减少了人工核验信息和录入信息的时间成本和人工成本，大大提高工作效率。

5、采用自己标注的数据训练深度学习模型进行OCR识别，经验证在保持较快的信息识别速度的同时，添加自己标注的实际应用数据训练后的模型与常规OCR识别模型相比在票据类、存折类的OCR识别方面准确率提高。添加实际应用数据提高了数据的多样性，保证训练后的模型对同一汉字的不同打印形式有较高的鲁棒性。

6、本发明采用的图像边缘方法对噪声具有平滑作用，能够提供较为准确的计算边缘信息，减少了运算所需要的模板的数量，降低了计算的复杂度，同时在抗噪方面具有更好的鲁棒性。

综上所述，本发明采用深度学习模型进行OCR识别，减少了人工成本，简化了使用要求，加快了信息识别速度和识别准确率，大大提高工作效率；而且针对不同印刷字体具有较高的鲁棒性。

附图说明

图1是本发明中识别系统的系统流程图。

图2是本发明的预处理后存折图片。

图3是本发明的轮廓提取后存折图片。

图4是本发明的透视变换后存折图片。

图5是本发明的存折信息定位截取图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

如附图1所示，一种基于存折、票据字符OCR识别系统，包括：图像预处理模块、面向检测模块、定位模块和OCR识别模块四个模块。

其中，图像预处理模块用于拍取的任意角度的存折图像，并处理得到角度校正后的新存折图像；面向检测模块用于对存折图像的面向进行角度校正，调整至0°状态；定位模块用于对校正后存折图像中待识别区域的位置进行定位，并构建待识别区域的对应标签；OCR识别模块采用不定长OCR识别模型对待识别区域进行识别，并输出识别结果。

基于存折、票据字符OCR识别系统，对识别方法做出进一步的描述，具体包括如下步骤：

步骤1、拍取的任意角度的存折图像，通过预处理得到角度校正后的新存折图像。

所述步骤1中的预处理方法包括如下步骤：

步骤11、获取高拍仪拍取的任意角度的存折图像。

步骤12、对存折图像进行锐化和高斯平滑处理，增强图像边缘与周围背景的反差。具体地，设灰度化后的图片值为F

其中，(x

其中，σ为x的方差；对矩阵中每一点相乘获得新的3×3的矩阵，新矩阵进行加权平均后即得高斯平滑的权重矩阵Z

最终高斯处理后的像素点值为F

步骤13、再利用Sobel算子检测图像边缘，从横向和纵向两个方向与图像做卷积操作，获得梯度上的近似值后计算图像轮廓，获得的图像轮廓以点集形式保存，计算轮廓点集的凸包和凸包的外接矩形，进而计算出轮廓的四个顶点坐标。

其中，x方向做卷积的算子为D

y方向做卷积的算子为D

对高斯处理后的图像分别计算x方向G

计算图像F

其中，以(i,j)为中心，(i

计算轮廓点集的外接矩形，首先取轮廓中横坐标最小的任一点记为p

步骤14、通过透视变换对存在角度偏移的存折图像进行校正，首先确定校正后新图像的坐标，由新坐标与原本存折图像坐标构建透视矩阵，透视矩阵为3×3矩阵，记为A,其中，

其中矩阵A中

其中，透视变换计算方法为：

其中，(m,n)为变换前坐标点(M,N)为变换后坐标点，u＝1；

根据原本顶点坐标计算透视矩阵的值，最后根据公式

与

分别计算变换后图像的坐标，获得旋转后新图像F

步骤2、对存折图像的面向进行角度校正，调整至0°状态。

其中，具体的面向检测方法包括如下步骤：步骤21、首先收集0°、90°、180°和270°翻转的四种类型文本图片预定数目；以SVM分类器对四种方向进行分类识别，构建图片与对应分类的标签，0°、90°、180°和270°分别对应标签1、2、3和4；步骤22、提取图片的梯度直方图HOG特征，所述HOG特征反应图片的梯度变化信息，不同角度偏转的文字梯度信息不同；步骤23、由于HOG特征维度较高，不利于分类器训练，采用主成分分析PCA方法对HOG特征降维；步骤24、降维后的HOG特征作为输入特征训练SVM分类器，得到训练后的SVM分类器；记共有s条d维HOG特征数据。将数据组合为s行d列的数据矩阵X。对矩阵每列计算其均值，组成1行d列矩阵

步骤3、对校正后存折图像中待识别区域的位置进行定位，并构建待识别区域的对应标签；具体的，以角度校正后存折图像左上角顶点坐标为固定点，由于固定点位置与存折中所需提取信息区域的位置偏移关系固定，因此以固定点坐标加上偏移量定位到所需提取的各个区域坐标，将所述区域截取出来，即为识别区域。

具体地，记左上角顶点坐标为(x,y)，需识别区域为矩形区域，矩形任一顶点为(x',y')，两点之间的距离由Vx＝x'-x和Vy＝y'-y表示，由于存折、票据等需识别区域确定，其中Vx和Vy值确定，可通过顶点坐标与Vx值，Vy值计算所有需识别区域并根据坐标截取出来。

步骤4、采用不定长OCR识别模型对待识别区域进行识别，并输出识别结果。

具体的，所述定位模块截取的区域包含所需识别的文字字符，实际情况中字符数量不一，采用不定长OCR识别模型进行识别。首先构建识别模型结构，模型考虑实际OCR识别需要，以densenet网络结构为基础进行改进。模型输入为需要进行OCR识别的图片，首先进行批归一化处理BN层处理后送入第一层3×3的卷积层，该层的激活函数为Relu函数，经卷积层提取的图片特征送入denseblock层，模型有三个denseblock层，中间通过transition层进行连接，denseblock层包括BN层，Relu激活函数和3×3的卷积层，该层的特征图大小一致，每层的输入来自前面所有层的输入。Transition层连接两个denseblock层，降低特征图大小并且压缩模型。该层包括一个1×1的卷积层和2×2的平均池化层。最后第三个denseblock层输出的特征经过BN层和全连接层输出。全连接输出后经过softmax函数计算，softmax函数的计算公式为

其中，x

完成模型构建后进行模型训练，首先根据所需识别的文字种类构建语料库，语料库包括常用汉字，数字，字母和符号5990类。由语料库生成训练数据集和数据集的标签文件，标签文件包括训练数据名称和数据中汉字字符在语料库中的位置信息。生成100万训练集，1万测试集进行模型训练，训练准确率约为95％。训练通过训练集在模型中前向计算结果的自动修改模型的权重值，多次训练后对所有训练集均有很高的识别率后停止训练并保存权重值至模型文件中，模型文件为二进制形式表示的模型文件的最优权重值。识别时通过程序调用网络模型与模型文件，经softmax函数计算输出概率最高分类的标签文件，检索标签文件后输出最终识别结果。经测试本发明具有很高的识别准确率，且在复杂的环境中鲁棒性强。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于存折、票据字符OCR识别方法和识别系统 [P] . 中国专利： CN112507914A . 2021-03-16
2. 一种基于OCR的多票据自动识别方法及识别系统 [P] . 中国专利： CN111008635A . 2020-04-14
3. A method for speaker-dependent speech recognition and voice recognition system therefor [P] . 德国专利： DE10313310A1 . 2004-10-21

机译：一种基于说话者的语音识别方法及其语音识别系统
4. A method for calling applications and positioning them on a display screen based on a character recognition system inputted through a touch screen surface of a display [P] . 俄罗斯专利： RU2016102357A . 2017-07-31

机译：一种基于通过显示器的触摸屏表面输入的字符识别系统调用应用程序并将其放置在显示屏上的方法
5. METHOD FOR RECOGNIZING HEAD-WRITTEN CHARACTER BY FUZZY INFERENCE [P] . 日本专利： JPH0233688A . 1990-02-02

机译：一种基于模糊推理的手写字符识别方法