基于Tesseract开源OCR引擎的证件识别系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

证件的识别这个事务出现在日常生活中的各个场合，例如在入住酒店时需要使用身份证实名认证，交警在处理交通事故的时候也需要对驾驶员的身份证和驾驶证进行核对，确认当事人的身份。
　　因为要进行OCR识别，原图片的获取可以说是基础的一个要素。最理想的输入设备应该是扫描仪。扫描的输入最为纯净，没有附带的背景，并且能保持图像的正面成像，还能给与较高的分辨率和色彩还原度。但是扫描仪并不是常备的设备，更多时候的图像采取可能需要手机的摄像头，显然通过这样的方式获取到的原图像质量会比较低。可能遇到的问题有，光线的不均匀造成的失真，拍照时没法拍到正面而产生的透视形变，之后即便再高级的摄像机由于光学的成像原理在边缘处都会有一些形变而造成失真。为了解决这些问题本文提到了一系列图像处理的方法来提升原图像的质量，进而提升识别的精确度。
　　在修正图像的透视形变这方面本文介绍的较为详细。从透视产生的原理，到解决透视问题的数学方法。以及在实现上为了快速开发而使用的OpenGL库，或者是为了在移动端进行扩展而采用优化过的快速反透视变换算法。结合这些技术可以使得在照相机上获取的带有透视形变的证件快速还原成其原始的形态，再按证件的格式分析送入实验中的证件识别器。
　　本文针对特定格式的类身份证性质的证件，通过对图像源的预处理，给予特定样本的训练，实现一种基于 Tesseract-ocr的包含不同字体汉字数字的证件格式化OCR识别系统。Tesseract是一个开源的OCR引擎，支持汉字等等绝大多数文字的识别，并且提供了一系列训练的方式，可以自行训练出需要的训练集。针对不同的场合进行优化。也支持大量的参数调优，例如行距，字距等等信息。
　　在本文的实验中通过一些技术，使得TesseractOCR的识别效率以及识别的精确度大幅提升，分析的过程大致是通过证件的固有格式进行区域的划分而在对不同区域的识别上采用不同的参数以及不同的训练集。例如对性别的识别，所采用的训练集在训练时只训练了两个字男和女，这样的训练结果虽然带有一些局限性，但是应用于大多数的场合都是能提升一定的效率和准确性。
　　本文的创新之处就是在于摆脱了价格高昂的商用OCR软件，而采用了开源的TesseractOCR可以降低整套系统的成本并且在效果上满足需求。

著录项

作者
程育恒;
展开▼
作者单位

东华大学;

展开▼
授予单位东华大学;
学科计算机技术
授予学位硕士
导师姓名刘国华,顾国强;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.41;
关键词
OCR软件; 数字图像处理; 证件识别系统;

相似文献

中文文献
外文文献
专利

1. 一个基于Tesseract OCR Engine的Wrapper的设计与实现 [J] . 池浩 . 科技传播 . 2011,第023期
2. Tesseract-OCR的文档扫描识别系统 [J] . 杨思怡 ,付相祥 ,吴晓华 . 电子世界 . 2021,第020期
3. 基于Tesseract-OCR的复杂发票自适应识别 [J] . 孙瑞彬 ,钱夔 ,徐伟敏 . 南京信息工程大学学报 . 2021,第003期
4. 基于Tesseract_OCR文字识别的研究 [J] . 曾悦 ,马明栋 . 计算机技术与发展 . 2021,第011期
5. 基于轻量化YOLOv3和Tesseract OCR的电力设备标志牌识别技术 [J] . 李思妍 ,台升 ,张宇航 . 智慧电力 . 2021,第007期
6. 基于开源OLAP引擎Mondrian的聚集表构建技术研究 [C] . JI Zilian ,吉子敛 . 第21届全国计算机新科技与计算机教育学术大会 . 2010
7. 基于Tesseract_OCR的驾驶证识别系统设计与实现 [A] . 李亮 . 2018

基于Tesseract开源OCR引擎的证件识别系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅