首页> 中文学位 >脱机手写中文识别中粘连文本行的切分与提取
【6h】

脱机手写中文识别中粘连文本行的切分与提取

代理获取

目录

脱机手写中文识别中粘连文本行的切分与提取

SEGMENTATION OF TEXT LINES IN OFF-LINE CHINESE HANDWRITTEN CHARACTER RECOGNITION

摘要

ABSTRACT

第1章 绪论

1.1 研究计算机识别文字的目的及意义

1.2 汉字识别的问题与困难

1.3 汉字识别研究的发展历程

1.4 汉字识别技术研究现状及发展趋势

1.5 论文背景及研究的主要内容及意义

1.6 本章小结

第2章 粘连汉字切分方法的研究

2.1 引言

2.2 切分算法

2.3 切分路径评价方法

2.4 本章小结

第3章 文本行切分实验数据获得与分析

3.1 引言

3.2 文本库HIT-MW简介

3.3 实验数据的获得

3.4 实验数据分析

3.5 本章小结

第4章 粘连文本行切分与提取

4.1 引言

4.2 主要研究内容简介

4.3 文本块背景骨架化

4.4 寻找候选切分路径

4.5 最优切分路径判定

4.6 文本块笔划细化及提取特征点

4.7 数据统计

4.8 失败个例分析

4.9 本章小结

结论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创声明

哈尔滨工业大学硕士学位论文使用授权书

哈尔滨工业大学硕士学位涉密论文管理

致谢

展开▼

摘要

汉字作为中华民族上千年文化的结晶,在社会发展中一直起着重大的作用,实现手写文档的电子化具有非常重要的意义。文字识别是指利用计算机自动辨别在纸或其他介质上的文字的过程。文字识别分为脱机文字识别和联机文字识别两种,主要研究脱机中文手写文字识别。中文文字识别与英文文字识别有很大的区别,并且中文文字识别的发展滞后于英文文字识别。从英文文字识别的发展历程来看,中文手写识别应该从现有的单字识别扩展到语句级识别,其中需要解决许多重要问题。
  现有文本库均为单字库,没有支持非单字识别的文本库,因此建立了中文文本库HIT-MW。此文本库是以文本页为基本单位的,识别之前需要将其切分为文本行,这正是本文完成的主要工作。
  首先通过直接水平全局投影、小角度纠斜、再次水平全局投影、局部投影四步以获得粘连文本块数据集。之后对粘连文本块数据集进行了全面详细的分析,并按照难易程度将其分为四类子数据集:两行文字易切分文本块、两行文字难切分文本块、两行文字粘连文本块和三行或更多行文字文本块,对各类数据集采取不同的策略。
  然后对文本块进行背景骨架化。对能够直接获得候选切分路径的数据集,研究了判别最优切分路径的评价函数;对不能获得候选切分路径的数据集,进行了笔划细化,获得一些笔划的特征点,再结合背景骨架图从而获得了候选切分路径。
  最后,通过对比,使用高斯混合模型作为评价函数,获得了62.64%的正确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号