蒙古文文档图像版面分析及识别后处理的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

光学字符识别（Optical Character Recognition，简称OCR）技术的研究在近年来得到了飞速发展，中文、英文等文字识别技术的研究已经取得了显著的成果。文字识别率是OCR系统中最重要的一个性能指标，对于印刷体蒙古文字识别系统来说，要想完善整个系统，提高蒙古文字的识别率，就要对蒙古文文档图像在识别前期的版面分析技术和后期的识别后处理技术进行研究和实现。因此，本文的主要研究内容包括两个部分，一个是蒙古文文档图像的版面分析，另一个是蒙古文字识别后处理。
　　在印刷体蒙古文字识别过程中，版面分析是一个很重要的基础工作，而目前对蒙古文文档图像的版面分析研究较少，蒙古文文档图像的版面形式多种多样，且存在文字、图片、表格等多种版面元素混排的情况，这些都给印刷体蒙古文字识别工作带来诸多困难。本文采用自底向上和自顶向下相结合的版面分析法，通过标记连通域、合并连通域、去除连通域等相关流程，将非文字部分去除，只保留文字部分。之后再经过段落划分，获得各段落的位置信息，这些位置信息可供后续版面恢复使用。
　　在蒙古文字识别系统中，文档图像经过切分和识别得到的识别结果是蒙古文字形编码，目前常用的为国际标准编码，因此要对识别结果进行编码转换，本文所关注的后处理是将字形识别结果转换为国际标准编码的过程。文中所采用的是基于对照词典的编码转换方式，首先需要将已有的国际标准码词典（涵盖了目前常用的50553个蒙古文单词）依次转换为WORD文档、PDF文件，最后转换为图片并进行版面分析和列切分、字切分以及字元切分，将经过切分得到的蒙古文字元图像作为训练好的卷积神经网络分类器的输入，输出即为蒙古文字形编码，利用已有的国际标准码词典与获取到的字形编码按照一一对应的关系整理成编码转换词典。进行后处理时在整理好的词典中查找与识别结果相同的字形编码的位置，即可在词典中找到该字形编码相对应的国际标准码，完成编码转换过程。
　　本文研究的蒙古文文档图像版面分析技术，能够对多种复杂版面格式的蒙古文文档图像进行处理，包括去除非文字部分、将文字区域划分段落并标记段落位置等，在一定数量的样本集上进行测试，版面分析准确率达到了97.87％。本文研究的识别后处理，能够快速、有效、准确的将蒙古文字形编码识别结果转换为国际标准码，使得印刷体蒙古文字识别系统更加完善。

著录项

作者
王艳文;
展开▼
作者单位

内蒙古大学;

展开▼
授予单位内蒙古大学;
学科计算机技术
授予学位硕士
导师姓名魏宏喜;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;藏书建设和藏书组织;
关键词
蒙古文; 文档图像; 版面分析; 识别后处理; 编码转换;

相似文献

中文文献
外文文献
专利

1. 一种基于连通域的蒙古文文档图像版面分析方法 [J] . 魏宏喜 ,高光来 . 内蒙古大学学报：自然科学版 . 2007,第5期
2. 关于印刷体蒙古文文档识别系统后处理规则库的建设 [J] . 包艳花 . 内蒙古社会科学：蒙文版 . 2013,第005期
3. 多体蒙古文印刷文档识别系统后处理模块的实现 [J] . 包艳花 . 内蒙古社会科学：蒙文版 . 2011,第004期
4. 蒙古文识别文本后处理字素合并模块的实现 [J] . 包艳花 . 内蒙古民族大学学报 . 2009,第006期
5. 一种复杂版面扭曲文档图像快速校正方法 [J] . 曾凡锋 ,段漾波 . 计算机应用与软件 . 2016,第006期
6. 多字体印刷蒙古文识别后处理研究 [C] . 包艳花 ,图格木勒 . 中国中文信息学会二十五周年学术会议 . 2006
7. 蒙古文识别文本后处理相关技术研究 [A] . 包艳花 . 2007

蒙古文文档图像版面分析及识别后处理的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅