首页> 中国专利> 一种身份证文字识别方法及装置

一种身份证文字识别方法及装置

摘要

本发明公开了一种身份证文字识别方法,包括如下步骤,采用身份证数据集训练专用文字检测模型,采集身份证图片信息,标注需识别的关键文字区域,生成身份证数据集,使用身份证数据集训练yolo模型;训练文字识别模型,基于身份证文字字体统一且字形方正,使用人工生成的文字数据集训练文字识别模型;模型整合及部署,加入图像预处理、中间数据处理以及输入数据处理方法,将yolo模型和文字识别模型整合,得到识别结果,并将识别结果导出;本发明可达到很高的检测准确率及速度,减小模型规模,提高训练速度,可以很好的解决通用文字识别技术存在的问题。

著录项

  • 公开/公告号CN112508026A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利权人 浪潮金融信息技术有限公司;

    申请/专利号CN202011353253.9

  • 发明设计人 胡焱;王龙晖;牛鹏;

    申请日2020-11-27

  • 分类号G06K9/34(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11638 北京权智天下知识产权代理事务所(普通合伙);

  • 代理人王新爱

  • 地址 215100 江苏省苏州市吴中开发区吴淞江工业园吴淞路818号

  • 入库时间 2023-06-19 10:16:30

说明书

技术领域

本发明涉及一种身份证文字识别方法及装置,属于人工智能和图像处理技术领域。

背景技术

文字识别是指利用光学技术和计算机技术将纸上的字符读取出来,并转换为一种计算机文字的过程,文字识别是人工智能技术的一个重要应用领域,广泛应用于身份认证、财税报销、文档电子化等场景。

目前,现有的文字识别方法主要通过深度学习算法来实现,可以从任意场景下检测文字区域并识别各种形式的文字,如广告牌、包装盒、艺术字等等,但对于身份证文字识别这一特定场景而言,这些通用方法还存在以下问题:

1、文字检测准确率不高;

身份证图像采集的场景通常比较复杂,往往是非专业人员使用移动终端手持拍摄,导致光照、角度等条件均不理想,身份证放置的背景也是各式各样,会对文字区域检测造成比较大的影响。

2、文字检测速度慢;

通用方法在检测文字区域时,为了保证在复杂场景下的检测能力,需要对待检测区域进行切片,即一个文字会被分割成多个小片来识别,当这些小片被确定为文字后,还要进行排列和合并等操作,构成一个完整的文字区域,那么当图中文字较多或者图片尺寸较大时,通用方法的耗时会十分严重,无法满足实时性需求;

3、模型训练速度慢;

通用方法为了提高识别性能和模型泛化能力,尽可能适用复杂场景,通常使用大规模数据集进行训练,模型的规模也比较大,导致模型训练耗时长,影响模型迭代。

发明内容

针对上述存在的技术问题,本发明的目的是:提出了一种身份证文字识别方法及装置,提高了身份证检测准确率及速度。

本发明的技术解决方案是这样实现的:一种身份证文字识别方法,包括如下步骤,

S100,采用身份证数据集训练专用文字检测模型,采集身份证图片信息,标注需识别的关键文字区域,生成身份证数据集,使用身份证数据集训练yolo模型;

S200,训练文字识别模型,基于身份证文字字体统一且字形方正,使用人工生成的文字数据集训练文字识别模型;

S300,模型整合及部署,加入图像预处理、中间数据处理以及输入数据处理方法,将yolo模型和文字识别模型整合,得到识别结果,并将识别结果导出。

优选的,在S100中,采集身份证图片信息包括采样500-800张野生身份证图片。

优选的,在S100中,训练yolo模型包括对身份证文字区域设置 yolo目标检测模型的锚框参数,对应的锚框大小分别为 1:3,1:5,1:7。

优选的,在S200中,训练文字识别模型后使用增强技术进行模型泛化处理。

优选的,所述模型泛化处理包括模糊处理、腐蚀处理、膨胀处理以及随机噪声处理。

优选的,:在S300中,图像预处理包括对图像进行二值化和缩放处理。

优选的,在S300中,将识别结果导出到pytorch深度学习框架的C++推理引擎中,部署到windows、linux不同终端平台。

一种身份证文字识别装置,包括文字检测模块、文字识别模块和整合部署模块;

所述文字检测模块采集身份证图片信息,标注需识别的关键文字区域,生成身份证数据集,使用身份证数据集训练yolo模型;

所述文字识别模块基于身份证文字字体统一且字形方正,使用人工生成的文字数据集训练文字识别模型;

所述整合部署模块采用图像预处理、中间数据处理以及输入数据处理方法,将yolo模型和文字识别模型整合,得到识别结果,并将识别结果导出。

由于上述技术方案的运用,本发明与现有技术相比具有下列优点:

本发明的一种身份证文字识别方法及装置,首先采用yolo目标检测模型检测身份证图片中的文字区域,Yolo模型采用身份证数据集训练,仅需很少的数据便可达到很高的检测准确率及速度;然后采用crnn文字识别模型识别文字区域中的文字,crnn模型使用人工生成的正规文字数据集来取代野生环境文字数据集,减小模型规模,提高训练速度,可以很好的解决通用文字识别技术存在的问题。

附图说明

下面结合附图对本发明技术方案作进一步说明:

附图1为本发明的一种身份证文字识别方法的流程图;

附图2为本发明的一种身份证文字识别装置的示意图。

具体实施方式

下面结合附图来说明本发明。

实施例一

如附图1所示为本发明所述的一种身份证文字识别方法,包括如下步骤,

S100,采用身份证数据集训练专用文字检测模型,采集500-800张野生身份证图片信息,标注需识别的关键文字区域(“姓名”,“生日”等文字可不标注),采用数据标注软件标注图片中的文字区域,文字区域为长方形,包括左上角坐标、后下角坐标以及长宽信息,生成身份证数据集,针对身份证文字区域比较扁长的特点,设置 yolo目标检测模型的锚框参数,对应的三个锚框大小分别为 1:3,1:5,1:7,使用imagenet预训练参数将yolo模型初始化,在 imagenet预训练参数的基础上,使用几百张身份证图片训练yolo 模型便可获得很好的效果,使用身份证数据集训练yolo模型;

S200,训练文字识别模型,基于身份证文字字体统一且字形方正,使用人工生成的文字数据集训练文字识别模型;使用训练好的yolo 模型检测图片中的文字区域,并将文字区域从原始图片中裁剪出来,作为文字识别模型的输入,训练文字识别模型后使用增强技术进行模型泛化处理,包括模糊处理、腐蚀处理、膨胀处理以及随机噪声处理;

S300,模型整合及部署,加入图像预处理,对图像进行二值化和缩放处理,使其符合模型对输入数据的要求,使用中间数据处理以及输入数据处理方法,将yolo模型和文字识别模型整合,使用crnn 模型识别文字区域中的文字,将识别出的文字按文本行进行整合、排序,作为最终识别结果,并将识别结果导出到pytorch深度学习框架的C++推理引擎中,这样可以在进一步提升模型预测速度的同时,将模型部署到windows、linux等不同终端平台。

实施例二

如附图2所示,一种身份证文字识别装置,包括文字检测模块、文字识别模块和整合部署模块;

所述文字检测模块采集身份证图片信息,标注需识别的关键文字区域,生成身份证数据集,使用身份证数据集训练yolo模型;

所述文字识别模块基于身份证文字字体统一且字形方正,使用人工生成的文字数据集训练文字识别模型;

所述整合部署模块采用图像预处理、中间数据处理以及输入数据处理方法,将yolo模型和文字识别模型整合,得到识别结果,并将识别结果导出。

本发明的一种身份证文字识别方法及装置,首先采用yolo目标检测模型检测身份证图片中的文字区域,Yolo模型采用身份证数据集训练,仅需很少的数据便可达到很高的检测准确率及速度;然后采用crnn文字识别模型识别文字区域中的文字,crnn模型使用人工生成的正规文字数据集来取代野生环境文字数据集,减小模型规模,提高训练速度,可以很好的解决通用文字识别技术存在的问题。

上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号