首页> 中文学位 >基于OCR的文档图片检测与信息提取系统的研究
【6h】

基于OCR的文档图片检测与信息提取系统的研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1课题背景及研究目的与意义

1.2 OCR技术简介

1.3国内外研究现状

1.4本文主要研究内容及论文组织

第2章 图像的预处理

2.1图像椒盐去噪技术概况

2.2基于邻域信息迭代去噪

2.3图像倾斜矫正

2.4本章小结

第3章 文档图片的检测

3.1算法的目的

3.2基于Adaboost算法的文档图片检测算法

3.3实验结果

3.4本章小结

第4章 版式分析与信息提取

4.1版式分析

4.2信息提取

4.3本章小结

第5章 系统实现

5.1系统架构

5.2实验环境

5.3实验结果

5.4本章小结

结论

参考文献

攻读学位期间发表的学术论文

声明

致谢

展开▼

摘要

科技的发展使信息处理方式突飞猛进,“信息资料电子化”的潮流吸引着各行各业的加入。基于Optical Character Recognition(OCR)的文档图片识别因速度块、识别从而准确越来越备受各大企业、党政机关的青睐。与传统的手工录入模式相比较,OCR的智能信息录入具备强大的优势,速度方面OCR识别也远快于手工录入模式,不仅使大批人力资源得到节省,资源配置得到优化,还使人员从繁琐的机械式工作中解脱出来,而去专注愈加有需要的工作上。OCR技术由于在数据收集计划方面可以为用户提供低成本、高效率,所以可以有力的支持业务快速发展。因此,大量的图片自动识别系统及APP软件应运而生。例如身份证的识别、票据的自动识别、车牌的自动识别。在此类产品中,都是固定了某种识别对象用特定的识别程序去识别。显然,当用户识别多个文档图像对象时,这种单处理对象模式将显得很棘手,因此,有必要开发一种能针对一般的文档图片,由程序自动判别文档类型,以及对信息进行提取的系统。
  基于上述的需求,本文提出一种基于OCR的多种文档图片识别系统。其中包括论文首页的图片、公文图片、名片图片等文档图片。该系统可以自动对输入的图片进行判别识别,并提取图片信息。本文主要从图片预处理、文档图片检测、版式分析及信息提取三个模块来描述提出的系统。图片预处理中的椒盐去噪是本系统的重要创新点之一,通过比较近几年各大期刊发表的相关论文,本文提出的椒盐去噪无论在高噪声还是低噪声,都有较好的效果。其次在图片的倾斜矫正方面,本文基于投影的改进算法在确保精度的条件下,加快了寻找倾斜角度的速度。在文档检测方面,利用Adaboost算法来组合弱分类器进而对图片分类,检测出文档图片。版式分析技术是基于改进的聚类算法来分析。图片的内容提取主要利用先验的规则库,以及通过贝叶斯概率来获得。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号