首页> 中文学位 >蒙古文文档图像版面分析及识别后处理的研究与实现
【6h】

蒙古文文档图像版面分析及识别后处理的研究与实现

代理获取

目录

声明

摘要

图目录

表目录

第一章 序言

1.1 研究背景

1.2 国内外研究现状

1.3 本文研究内容与组织结构

第二章 蒙古文文档图像版面分析总体技术路线

2.1 版面分析的技术路线

2.1.1 自顶向下法

2.1.2 自底向上法

2.1.3 综合法

2.2 蒙古文文档图像的特点

2.3 蒙古文文档图像版面分析的方法路线和主要任务

2.4 本章小结

第三章 基于综合法的蒙古文文档图像版面分析方法

3.1.1 图像灰度化处理

3.1.2 图像二值化处理

3.2 蒙古文文档图像的模糊处理

3.3.1 搜索连通域

3.3.2 合并连通域

3.3.3 去除非文字区域

3.4 去除页码

3.4.1 图像去噪

3.4.2 去除页码

3.5 段落划分

3.6 标记位置

3.7 本章小结

第四章 基于词典的蒙古文字识别后处理技术

4.1 识别后处理的技术路线

4.2 获取蒙古文字形编码

4.2.1 整理样本数据集

4.2.2 构建分类器模型

4.2.3 通过分类器获取字形编码

4.3.1 构建编码转换词典

4.3.2 人工校正

4.3.3 编码转换过程

4.4 本章小结

第五章 实验结果与分析

5.1 版面分析实验结果

5.2 获取字形编码时分类器训练实验结果

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

展开▼

摘要

光学字符识别(Optical Character Recognition,简称OCR)技术的研究在近年来得到了飞速发展,中文、英文等文字识别技术的研究已经取得了显著的成果。文字识别率是OCR系统中最重要的一个性能指标,对于印刷体蒙古文字识别系统来说,要想完善整个系统,提高蒙古文字的识别率,就要对蒙古文文档图像在识别前期的版面分析技术和后期的识别后处理技术进行研究和实现。因此,本文的主要研究内容包括两个部分,一个是蒙古文文档图像的版面分析,另一个是蒙古文字识别后处理。
  在印刷体蒙古文字识别过程中,版面分析是一个很重要的基础工作,而目前对蒙古文文档图像的版面分析研究较少,蒙古文文档图像的版面形式多种多样,且存在文字、图片、表格等多种版面元素混排的情况,这些都给印刷体蒙古文字识别工作带来诸多困难。本文采用自底向上和自顶向下相结合的版面分析法,通过标记连通域、合并连通域、去除连通域等相关流程,将非文字部分去除,只保留文字部分。之后再经过段落划分,获得各段落的位置信息,这些位置信息可供后续版面恢复使用。
  在蒙古文字识别系统中,文档图像经过切分和识别得到的识别结果是蒙古文字形编码,目前常用的为国际标准编码,因此要对识别结果进行编码转换,本文所关注的后处理是将字形识别结果转换为国际标准编码的过程。文中所采用的是基于对照词典的编码转换方式,首先需要将已有的国际标准码词典(涵盖了目前常用的50553个蒙古文单词)依次转换为WORD文档、PDF文件,最后转换为图片并进行版面分析和列切分、字切分以及字元切分,将经过切分得到的蒙古文字元图像作为训练好的卷积神经网络分类器的输入,输出即为蒙古文字形编码,利用已有的国际标准码词典与获取到的字形编码按照一一对应的关系整理成编码转换词典。进行后处理时在整理好的词典中查找与识别结果相同的字形编码的位置,即可在词典中找到该字形编码相对应的国际标准码,完成编码转换过程。
  本文研究的蒙古文文档图像版面分析技术,能够对多种复杂版面格式的蒙古文文档图像进行处理,包括去除非文字部分、将文字区域划分段落并标记段落位置等,在一定数量的样本集上进行测试,版面分析准确率达到了97.87%。本文研究的识别后处理,能够快速、有效、准确的将蒙古文字形编码识别结果转换为国际标准码,使得印刷体蒙古文字识别系统更加完善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号