首页> 中文学位 >基于Hadoop平台的印刷体蒙古文字识别系统的研究与实现
【6h】

基于Hadoop平台的印刷体蒙古文字识别系统的研究与实现

代理获取

目录

声明

摘要

图目录

表目录

第—章 序言

1.1 研究背景

1.2 国内外研究现状

1.3 本文研究内容与组织结构

第二章 Hadoop平台框架概述

2.1 Hadoop分布式文件系统

2.1.1 HDFS的主要特点

2.1.2 HDFS体系结构

2.1.3 副本存放

2.1.4 通信协议

2.2 MapReduce编程框架

2.3 本章小结

第三章 蒙古文字识别技术

3.1 蒙古文预处理过程

3.1.1 图像灰度化处理

3.1.2 图像二值化处理

3.1.3 蒙古文切分

3.2 蒙古文字识别方法

3.2.1 局部感知

3.2.2 权值共享

3.2.3 池化

3.2.4 蒙古文字识别器设计

3.3 本章小结

第四章 系统的设计与实现

4.1 系统概述

4.2 并行蒙古文字识别算法的设计

4.2.1 现有蒙古文字识别算法

4.2.2 并行蒙古文字识别算法

4.2.3 并行蒙古文字识别算法的MapReduce实现

4.2.4 并行蒙古文字识别算法在Hadoop上的调度执行

4.3 系统总体框架与工作流程

4.3.1 系统总体框架

4.3.2 系统的工作流程

4.4 系统的详细设计

4.4.1 用户页面

4.4.2 串行图像处理器

4.4.3 上传处理器

4.4.4 并行蒙古文字识别运算器

4.4.5 作业响应器

4.5 系统的实现

4.5.1 前端相关类

4.5.2 并行蒙古文字识别运算器相关的类

4.6 本章小结

第五章 实验结果与分析

5.1 实验环境配置

5.1.1 SSH配置

5.1.2 Hadoop安装配置

5.1.3 启动Hadoop

5.2 实验结果与分析

5.2.1 系统正确性测试

5.2.2 并行识别算法运行速度测试

5.3 系统界面

5.3.1 用户上传待识别图像界面

5.3.2 提交识别作业界面

5.3.3 识别结果展示界面

5.4 系统操作

总结

参考文献

攻读硕士学位期间取得成果

致谢

展开▼

摘要

印刷体蒙古文字识别是蒙古文字识别的一个重要部分,随着内蒙古地区蒙古族文化的发展,产生了大量的蒙古文文献资料。将纸质文献资料手工录入到计算机会浪费大量的人力物力,而且在录入过程中极可能出现人为错误。因此,蒙古文字识别技术应运而生,蒙古文字识别技术实现了蒙古文文本图像向可编辑蒙古文文本的自动转换。但是,二十一世纪是一个信息爆炸的时代,现有的蒙古文字识别算法在效率上已经不能满足应用的需求。因此,本文重点解决了将蒙古文字识别算法并行化的问题。
  Hadoop原本来自于Google一款名为MapReduce的编程模型。Google的MapReduce框架可以将一个应用程序分解为若干并行计算指令,通过大量的计算节点运行海量的数据集。MapReduce编程框架主要包含两部分:Map部分和Reduce部分,其中Map部分用于将输入数据切分成若干小的数据块进行计算;Reduce部分用于获取Map部分计算产生的小数据块,经过汇总后输出结果。
  随着大数据和深度学习的发展,本文对当前热门的大数据处理技术Hadoop和卷积神经网络深度学习算法做了深入的分析和研究后,结合现有蒙古文字串行识别算法存在的问题,提出使用MapReduce编程框架来实现并行蒙古文字识别算法。Map部分将识别任务分配给集群中各个节点,Reduce部分将各个节点上的识别结果进行汇总。卷积神经网络对图像中内容有丰富的表达能力,可以自适应的提取蒙古文字字元图像特征。
  本文设计实现了完整的蒙古文字识别系统,该系统主要包括两个部分,一部分是用户提交识别作业界面;另一部分是搭建在Linux系统上的并行蒙古文字识别算法的MapReduce程序,这种设计结构使得程序易于维护、便于扩展。
  本文通过一系列实验来测试并行蒙古文字识别算法在蒙古文字元识别方面的高准确性和执行效率的高效性,平均识别正确率达到92.03%,在三万字的数据规模下蒙古文字识别平均耗时为0.161秒/个。通过实验对比了并行蒙古文字识别算法与现有蒙古文字识别算法在大规模数据下的表现,证明了并行蒙古文识别算法的可行性、高效性。

著录项

  • 作者

    姚志鹏;

  • 作者单位

    内蒙古大学;

  • 授予单位 内蒙古大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 魏宏喜;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.43;
  • 关键词

    蒙古文文本; 文字识别; 系统设计;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号