首页> 中文学位 >复杂背景下基于OCR的变体文本识别技术
【6h】

复杂背景下基于OCR的变体文本识别技术

代理获取

目录

文摘

英文文摘

声明

第一章引言

1.1研究的理论意义

1.2研究的应用背景

1.3复杂背景下OCR的难点

1.4技术路线

1.4.1复杂背景文本提取方案

1.4.2变体文字切分的解决方案

1.5本文的章节安排

第二章OCR技术的研究和发展现状

2.1 OCR技术概述

2.1.1发展历史

2.1.2系统流程

2.2预处理

2.2.1全局阈值二值化

2.2.2局部阈值二值化方法

2.3切分方法

2.3.1经典切分方法

2.3.2连通区域法

2.3.3基于识别的切分方法

2.3.4整体切分方法

2.3.5字符切分中的常见错误

2.4本章小结

第三章复杂背景下的文本提取

3.1灰度化

3.2灰度分级

3.2.1直方图均衡法

3.2.2级数的选取

3.3实验结果

3.4本章小结

第四章变体文本的切分算法

4.1文本块行切分

4.2字符切分

4.2.1字符串凹凸轮廓定义及检测

4.2.2字符高度和宽度的近似检测

4.2.3字符的切分

4.3字符切分正确率实验

4.4本章小结

第五章变体文本的识别

5.1模式识别

5.1.1基于神经网络的字符识别技术

5.1.2可变形模板匹配应用于字符识别

5.2复杂背景下的字符识别

5.2.1字符图像归一化

5.2.2字符识别实验

5.3本章小结

结束语

本文工作总结

下一步的研究工作

参考文献

攻读硕士学位期间取得的研究成果

致谢

展开▼

摘要

OCR(Optical Character Recognition,光学文本识别)技术作为基本的模式识别技术。根据应用领域的不同,可分为通用的OCR技术及复杂背景下的OCR技术两大类。复杂背景下的OCR技术涉及的图象处理与模式识别技术较通用的OCR技术更为复杂,是文本识别技术的研究前沿之一。 由于图像中的文字通常叠加在复杂的图像背景之上,背景成分的干扰使得现有的OCR技术难以识别出文字,因而如何从图像的复杂背景中提取出文字成为一个有必要研究的问题。近年来,这一问题开始受到广泛关注,并取得了大量的研究成果,但由于区分文字与复杂背景的困难性,该问题还远没有得到完美解决。 本文从图像二值化、版面分析等方面介绍了文字切分的理论基础。对文字图像预处理中的各种二值化方法以及各种不同的切分技术进行了分析和比较。本文对垃圾邮件中的图片进行实验的基础上,对复杂背景下的文本提取技术进行了研究,提出了基于灰度分级的新文本提取方法;同时提出了边缘检测技术,有效实现文本字符特征的提取和切分。 本文提出的方法可直接对复杂背景图象进行文本提取,并在此基础上实现对目标文本的切分。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号