基于OCR的文档图片检测与信息提取系统的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

科技的发展使信息处理方式突飞猛进，“信息资料电子化”的潮流吸引着各行各业的加入。基于Optical Character Recognition(OCR)的文档图片识别因速度块、识别从而准确越来越备受各大企业、党政机关的青睐。与传统的手工录入模式相比较，OCR的智能信息录入具备强大的优势，速度方面OCR识别也远快于手工录入模式，不仅使大批人力资源得到节省，资源配置得到优化，还使人员从繁琐的机械式工作中解脱出来，而去专注愈加有需要的工作上。OCR技术由于在数据收集计划方面可以为用户提供低成本、高效率，所以可以有力的支持业务快速发展。因此，大量的图片自动识别系统及APP软件应运而生。例如身份证的识别、票据的自动识别、车牌的自动识别。在此类产品中，都是固定了某种识别对象用特定的识别程序去识别。显然，当用户识别多个文档图像对象时，这种单处理对象模式将显得很棘手，因此，有必要开发一种能针对一般的文档图片，由程序自动判别文档类型，以及对信息进行提取的系统。
　　基于上述的需求，本文提出一种基于OCR的多种文档图片识别系统。其中包括论文首页的图片、公文图片、名片图片等文档图片。该系统可以自动对输入的图片进行判别识别，并提取图片信息。本文主要从图片预处理、文档图片检测、版式分析及信息提取三个模块来描述提出的系统。图片预处理中的椒盐去噪是本系统的重要创新点之一，通过比较近几年各大期刊发表的相关论文，本文提出的椒盐去噪无论在高噪声还是低噪声，都有较好的效果。其次在图片的倾斜矫正方面，本文基于投影的改进算法在确保精度的条件下，加快了寻找倾斜角度的速度。在文档检测方面，利用Adaboost算法来组合弱分类器进而对图片分类，检测出文档图片。版式分析技术是基于改进的聚类算法来分析。图片的内容提取主要利用先验的规则库，以及通过贝叶斯概率来获得。

著录项

作者
邹亚劼;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名刘绍辉;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
文档图片; 图片预处理; 信息提取; 椒盐去噪; Adaboost算法;

相似文献

中文文献
外文文献
专利

1. 基于OCR的图像文档智能重命名系统的设计与实现 [J] . 张焱鑫 . 电子技术与软件工程 . 2021,第020期
2. 基于OCR文档扫描与语音阅读技术的记事本应用研究与实现 [J] . 沈旭 ,曾竟明 ,王新政 . 软件 . 2021,第006期
3. 基于单幅图片的唐代服装褶皱信息提取研究 [J] . 朱耀麟 ,刘雅琪 ,万韬阮 . 纺织高校基础科学学报 . 2014,第002期
4. 基于机器视觉的外观尺寸测量及OCR识别检测系统的设计 [J] . 徐建辉 ,王永华 ,万频 . 仪器仪表用户 . 2017,第005期
5. 基于OCR技术的医疗收费票据自动录入系统研究 [J] . 梁林森 . 电力设备管理 . 2021,第004期
6. 三维信息提取理论在医学图片处理上的应用 [C] . 汪德宗 . 中国图象图形学学会第七届全国图象图形学学术会议 . 1994
7. 基于OCR技术的涉密文档监控系统设计与实现 [A] . 徐建文 . 2014

基于OCR的文档图片检测与信息提取系统的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅