首页> 中国专利> 一种模糊、倾斜、带水印的身份证复印件要素提取方法

一种模糊、倾斜、带水印的身份证复印件要素提取方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种模糊、倾斜、带水印的身份证复印件要素提取方法，包括以下步骤：S1:预处理模块，得到证件照在图中四个顶点的坐标，并根据坐标获取证照图；S2:证照图的去水印、锐化以及关键信息位置定位；S4：识别结果修正；同时，本发明采用了对抗生成网络去除水印，对抗生成网络能够有效淡化甚至去除水印覆盖，还原关键信息问题，提高文本识别的准确率；最后，本发明利用证件照关键信息之间相互关联，利用国家统计局发布的官方行政区划，对提取的关键信息进行矫正，可以进一步提高文本识别的准确率。

著录项

公开/公告号CN112488106A

专利类型发明专利
公开/公告日2021-03-12

原文格式PDF
申请/专利权人天翼电子商务有限公司;
展开▼

申请/专利号CN202011390772.2
发明设计人袁顺杰;徐华建;汤敏伟;李真;
展开▼

申请日2020-12-02
分类号G06K9/32(20060101);G06K9/38(20060101);G06T3/00(20060101);G06T5/00(20060101);G06T5/30(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构
代理人
地址 102200 北京市昌平区未来科技城南区中国电信集团公司院内
入库时间 2023-06-19 10:11:51

说明书

技术领域

本发明涉及电子信息技术领域，特别涉及一种模糊、倾斜、带水印的身份证复印件要素提取方法。

背景技术

随着人工智能技术的发展，光学字符识别(OpticalCharacterRecognition,OCR)技术被大量应用于识别用户上传的证件照以提取关键信息。在OCR领域，目前主要采用的是基于目标检测算法的文字位置定位和基于卷积循环神经网络的文字识别方法。其中，目标检测算法用于检测图片中包含文字的区域，再利用卷积循环神经网络识别对应内容的文字，最终将图片信息转化为文字信息。在图片清晰度良好、角度水平且无水印覆盖的情况下取得了很好的效果，但是这些方法在模糊、倾斜和水印覆盖的情况下识别效果较差。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种模糊、倾斜、带水印的身份证复印件要素提取方法。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种模糊、倾斜、带水印的身份证复印件要素提取方法，包括以下步骤：

S1:预处理模块，对输入的身份证复印件图片进行预处理，通过一系列数字图像处理技术，得到证件照在图中四个顶点的坐标，并根据坐标获取证照图；

S2:证照图的去水印、锐化以及关键信息位置定位，利用证照图关键信息的相对关系，得到各个信息的位置，最终得到姓名、性别、民族、出生年月、地址、有效期关键信息的确定位置，截取相关位置图片生成对应信息条目图片；

S3:文本识别模块，使用卷积循环神经网络对每一个信息条目进行识别，首先通过卷积网络提取条目图片特征，再利用循环神经网络提取上下文信息，最终使用CTC模型输出条目图片中的文字信息；

S4：识别结果修正，利用全国行政区划的标准库和身份证的组合规律，对预测的文本信息进行后处理，得到最终的文本识别结果。

作为本发明的一种优选技术方案，所述步骤S1中包含如下：

S1.1对输入证照图使用二值化技术突出证照图的主体轮廓；

S1.2使用腐蚀和膨胀技术去除S1.1中得到的二值化图中的颗粒噪声，证照图位置更加清晰完整；

S1.3利用矩形框检测技术检测S1.2步骤得到的图片，去除掉面积小的矩形，得到证件位置的矩形框及其四个顶点坐标；

S1.4根据四个顶点相对位置，计算证件照倾斜角度，根据倾斜角度做投影仿射变化是矩形水平，得到水平的矩形框；

S1.5根据证件照的像素分布规律，利用特定区域内的像素均值及方差值，判断证件照的国徽面和人向面。

作为本发明的一种优选技术方案，所述步骤S2中包含如下：

S2.1对证照图进项蜕化操作，以凸显字迹纹理，提升对模糊图片的识别率；

S2.2利用条件生成对抗网络去除证照图中的水印，得到去除水印后的证照图；

S2.3根据证件照各个模块的相对位置，确定需要提取关键信息的条目区域，最后将一个证照图分成了多个只包含关键文字信息的区域图。

作为本发明的一种优选技术方案，所述步骤S3中包含如下：

S3.1将S2.3步骤中得到的区域图调整为高度为32像素的图片，并将图片输入到卷积神经网络中提取特征，得到对应图片的二维张量；

S3.2使用双向循环神经网络对S3.1步骤中得到的张量进行上下文分析，进而使用一个全连接层预测固定宽度内属于某个字符的概率，再转义为输出字符；

S3.3最后使用CTC算法对S3.2步骤得到的字符进行对齐去重，得到模型的输出文本。

作为本发明的一种优选技术方案，所述步骤S4中包含如下：

S4.1“证件照”和“生日”的修正，利用证件号第7位到第14位为出生年月的规则，取预测概率更大的一组进行修正；

S4.2“住址”和“签发机关”修正，利用官方发布的全国行政区划表，计算预测住址和预测签发机关与标准行政区划的编辑距离，取编辑距离最小的行政区划地址；

S4.3“有效期”修正，利用证件照有效期为5年、10年、20年和长期，对有效期年月日进行修正。

与现有技术相比，本发明的有益效果如下：

本发明利用证件照相对位置地址确定关键信息的位置，解决了现有方法在水印覆盖情况下的文本定位不准的问题，提高了文本定位准确率；同时，本发明采用了对抗生成网络去除水印，对抗生成网络能够有效淡化甚至去除水印覆盖，还原关键信息问题，提高文本识别的准确率；最后，本发明利用证件照关键信息之间相互关联，利用国家统计局发布的官方行政区划，对提取的关键信息进行矫正，可以进一步提高文本识别的准确率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明根据一事例性实施例实施例示出的一种模糊、倾斜、带水印的身份证复印件文本识别方法流程图；

图2是本发明根据一示例性实施例示出的预处理模块图；

图3是本发明根据一示例性实施例示出的去水印、锐化以及关键信息位置定位流程图；

图4是本发明根据一示例性实施例示出的卷积循环神经网络模块，对输入信息条目进行文本识别，给出图像是识别的流程图；

图5是本发明根据一示例性实施例示出的后处理模块流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

本发明实施例提供的一种模糊、倾斜、带水印身份证复印件文本识别方法，将证件照文本识别分为4个步骤：首先，利用传统数字图像处理方法二值化、腐蚀、膨胀、矩形检测和仿射变换得到水平证照图；然后，利用对抗生成网络去除水印干扰，根据证件照相对位置关系截取关键信息条目；再然后，利用卷积循环神经网络对各个条目进行文本预测；最后，利用规则对预测结果进行矫正，得到最后的识别出的关键信息文本。

图1是根据一事例性实施例实施例示出的一种模糊、倾斜、带水印的身份证复印件文本识别方法流程图，参照图1所示，该方法包括如下步骤：

S1:预处理模块，对输入的身份证复印件图片进行预处理，通过一系列数字图像处理技术，得到证件照在图中四个顶点的坐标，并根据坐标获取证照图；

具体的，对于输入身份证复印件进行预处理是非常重要的过程，证件照在输入图片中的位置和倾斜角度总不固定，为了识别输入图片中关键文字信息，只需要关注证件照主体部分。为了得到证件照主体部分，利用证件照具有明显的矩形边缘纹理，通过霍夫变换可以找到证件照在输入图片中四个顶点坐标，根据四个顶点坐标可以计算证件照倾斜角度，旋转后抠图即可得到水平的证照图。

图2是根据一示例性实施例示出的预处理模块，参照图2所示，其包括如下步骤：

S1.1对输入证照图使用二值化技术突出证照图的主体轮廓；

具体的，对于输入身份证复印件而言，背景的像素取值范围小，而证件照主体的像素值较高，通过二值化输入图可以凸出证件照主体轮廓；

S1.2使用腐蚀和膨胀技术去除S1.1中得到的二值化图中的颗粒噪声，证照图位置更加清晰完整；

具体的，数字图像处理技术腐蚀和膨胀可以有效去除S1.1得到的二值图中的“残渣”，而证件照主体轮廓不受到影响。

具体的，腐蚀操作就是求局部最小值，从数学的角度来说，就是将图像与核进行卷积，计算核覆盖区域的最小值，并把这个最小值赋给参考点。腐蚀操作会使图像中高亮区域逐渐减小。而膨胀操作与腐蚀操作相反，求局部最大值，膨胀会使图片高亮区域扩张。

S1.3利用矩形框检测技术检测S1.2步骤得到的图片，去除掉面积小的矩形，得到证件位置的矩形框及其四个顶点坐标；

具体的，轮廓检测模块主要使用开源opencv库函数findContours检测步骤S1.2得到的轮廓图，得到证件照轮廓的顶点坐标；

S1.4根据四个顶点相对位置，计算证件照倾斜角度，根据倾斜角度做投影仿射变化是矩形水平，得到水平的矩形框；

具体的，通过步骤S1.3得到的四个顶点坐标，进而可以计算出证件照在图片中的倾斜角度，将输入图片逆时针旋转相应的角度并计算旋转后的四个顶点坐标位置，截取对应的位置的图片，可以得到水平的证照图；

S1.5根据证件照的像素分布规律，利用特定区域内的像素均值及方差值，判断证件照的国徽面和人像面。

具体的，步骤S1.4可以分别得到证件照的人像面与国徽面，利用人像面与国徽面像素分布不同可以利用规则确定人像面和国徽面。具体的，人像面的右上半部分的像素值要低于其他三个部分；国徽面的左上半部分的像素值要低于其他三个部分。利用此规则可以得到证照图确切的面，即人像面和国徽面。

S2:证照图的去水印、锐化以及关键信息位置定位，利用证照图关键信息的相对关系，得到各个信息的位置，最终得到姓名、性别、民族、出生年月、地址、有效期等关键信息的确定位置；

具体的，S1步骤已经得到了水平的标准证照图，但是还没有解决模糊和水印覆盖的干扰，条件对抗生成网络可以学习到水印特征并有效去除水印覆盖，图像的锐化可以强化图片字迹纹理细节，减小模糊干扰。最后，利用证件照排版唯一性，关键信息文本的位置相对固定，可以截取姓名、性别、民族、出生年月、地址、有效期等关键信息的条目。

图3是根据一示例性实施例示出的去水印、锐化以及关键信息位置定位流程图，参照图3所示，其包括步骤如下：

S2.1利用条件生成对抗网络去除证照图中的水印，得到去除水印后的证照图

具体的，条件对抗网络的训练需要预先完成，本发明采用Unet网络作为条件对抗网络的生成模型，预先准备了大量的带水印和不带水印的证照对，即一张不带水印，然后随机地添加水印构成一对。然后对网络进行训练，最终输入新的标准证照图可以有效去除水印干扰；

S2.2对证照图进项蜕化操作，以凸显字迹纹理，提升对模糊图片的识别率；

具体的，补偿图像的轮廓，增强图像的边缘及灰度跳变的部分，使图像变得清晰，分为空间域处理和频域处理两类。图像锐化是为了突出图像上地物的边缘、轮廓，或某些线性目标要素的特征。这种滤波方法提高了地物边缘与周围像元之间的反差，因此也被称为边缘增强。

S2.3根据证件照各个模块的相对位置，确定需要提取关键信息的条目区域，最后将一个证照图分成了多个只包含关键文字信息的区域图。

具体的，在获取信息条目的时候，“签发机关”和“住址”条目最多可能为4行，为了最大程度获取所有信息，对于上述两项分别截取4行，然后拼接成一个长的条目。经过此步骤，本发明已经得到各个关键信息的条目图片。

S3:使用卷积循环神经网络对每一个信息条目进行识别，首先通过卷积网络提取条目图片特征，再利用循环神经网络提取上下文信息，最终使用CTC模型输出条目图片中的文字信息；

具体的，本实施例采用卷积循环神经网络(ConvolutionalRecurrentNeuralNetwork,CRNN)是《AnEnd-to-EndTrainableNeuralNetworkforImage-basedSequenceRecognitionandItsApplicationtoSceneTextRecognition》论文中提出的模型，能够识别不定长文本，对中文英文数字识别具有很好的效果。

具体的，步骤S3中的卷积神经网络需要提前训练，本实施例利用预训练好的模型在新的数据集上进行微调，可以对身份证复印件场景具有更好准确性。具体的，新的数据集指身份证复印件图片，需要人工对图片中信息进行标注，该部分带标签的数据用于模型微调，对模型的训练起到非常关键的作用。

图4是根据一示例性实施例示出的卷积循环神经网络模块，对输入信息条目进行文本识别，给出图像是识别的流程图，参照图4所示，其中包括以下步骤：

S3.1将S2.3步骤中得到的区域图调整为高度为32像素的图片，并将图片输入到卷积神经网络中提取特征，得到对应图片的特征图；

具体的，卷积部分采用VGG为基础模块，对输入图片进行了5次下采样，最终输出的特征图高度为1，通道数为512，即特征图已经变成一个向量，其中，输入图每32个像素的长度负责预测该区域一个文字。

在本实施例中，作为一种较优的实施方式，步骤S3.1中所使用的卷积神经网络，采用的是VGG19网络。在其他实施例中，也可以采用resnet等其他形式的卷积神经网络。

S3.2使用双向循环神经网络对S3.1步骤中得到的特征向量进行上下文分析，进而使用一个全连接层预测固定宽度内属于某个字符的概率，再转义为输出字符；

具体的，由于步骤S3.1的通道数为512，所以该步骤的输入向量是512维，而文字的特征序列就构成一个时间序列，采用双向长短记忆神经网络能够有效提取文本的上下文关系，提高文本预测的准确率。

具体的，在双向长短序列时间网络后面接全连接层，用于预测文字，全连接层输出节点个数为5529，包括所有的中文字符，英文大小写字符、数字、特殊符号。最终取概率值最大的节点对应的字符为预测字符。

S3.3：使用CTC算法对S3.2步骤得到的字符进行对齐去重，得到模型的输出文本。

具体的，步骤S3.2的预测结果并不是最终的预测结果，CTC算法可以接受一个不定长的序列，通过计算一个条件概率的最大值输出一个新的序列，解决了步骤S3.2输出序列不对齐的问题。

S4：识别结果修正，利用全国行政区划的标准库和证件照的组合规律，对预测的文本信息进行后处理，得到最终的文本识别结果。

具体的，步骤S3可以得到每个条目的文字，本发明根据身份证构成规则，对预测结果进行一步后处理，能够使输出结果更加精确。

图5是根据一示例性实施例示出的后处理模块流程图，其中包括以下步骤：

S4.1“证件照”和“生日”的修正，利用证件号第7位到第14位为出生年月的规则，取预测概率更大的一组进行修正；

具体的，步骤3的输出文本都会附带一个概率值，本发明利用证件号第7位到第14位为出生年月这个规则，取概率更大的一个为预测结果，例如，出生年月的概率大于证件号第7位到第14位的概率，就把预测证件号第7位到第14位改成出生年月的预测结果；

具体的，“住址”和“签发机关”属于一个行政区划，本发明以国家统计局发布的行政区划为标准，计算预测结果与标准区划的编辑距离，取编辑距离最小的标准行政区划为预测结果；

S4.3“有效期”修正，利用证件照有效期为5年、10年、20年和长期，对有效期年月日进行修正；

具体的，身份证有效期的年限一般是5年、10年、20年或者“长期”，本发明利用此规律对有效期进行修正。具体的，取有效期起始时间年、月、日和截止时间年月日，分别去对应预测概率大的为预测结果。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种模糊、倾斜、带水印的身份证复印件要素提取方法 [P] . 中国专利： CN112488106A . 2021-03-12
2. 一种基于模糊逻辑的物候过渡带提取方法 [P] . 中国专利： CN112132066A . 2020-12-25
3. PRODUCTION OF ELEMENT FOR MULTI-TONAL WATERMARK FORMATION, ELEMENT FOR MULTI-TONAL WATERMARK FORMATION AND APPLICATION OF SAID ELEMENT FOR MULTI-TONAL WATERMARK FORMATION [P] . 俄罗斯专利： RU2567357C2 . 2015-11-10

机译：多色调水印形成要素的生产，多色调水印形成要素和多色调水印形成要素的应用
4. DIGITAL WATERMARK EMBEDDING DEVICE, DIGITAL WATERMARK EXTRACTION DEVICE, DIGITAL WATERMARK EMBEDDING METHOD, DIGITAL WATERMARK EXTRACTION METHOD, AND PROGRAM [P] . WO2021130935A1 . 2021-07-01

机译：数字水印嵌入装置，数字水印提取装置，数字水印嵌入方法，数字水印提取方法和程序
5. Digital watermark embedding method, digital watermark extraction method, digital watermark embedding apparatus, and digital watermark extraction apparatus [P] . 美国专利： US7269274B2 . 2007-09-11

机译：数字水印嵌入方法，数字水印提取方法，数字水印嵌入装置和数字水印提取装置