脱机手写中文识别中粘连文本行的切分与提取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

汉字作为中华民族上千年文化的结晶，在社会发展中一直起着重大的作用，实现手写文档的电子化具有非常重要的意义。文字识别是指利用计算机自动辨别在纸或其他介质上的文字的过程。文字识别分为脱机文字识别和联机文字识别两种，主要研究脱机中文手写文字识别。中文文字识别与英文文字识别有很大的区别，并且中文文字识别的发展滞后于英文文字识别。从英文文字识别的发展历程来看，中文手写识别应该从现有的单字识别扩展到语句级识别，其中需要解决许多重要问题。
　　现有文本库均为单字库，没有支持非单字识别的文本库，因此建立了中文文本库HIT-MW。此文本库是以文本页为基本单位的，识别之前需要将其切分为文本行，这正是本文完成的主要工作。
　　首先通过直接水平全局投影、小角度纠斜、再次水平全局投影、局部投影四步以获得粘连文本块数据集。之后对粘连文本块数据集进行了全面详细的分析，并按照难易程度将其分为四类子数据集：两行文字易切分文本块、两行文字难切分文本块、两行文字粘连文本块和三行或更多行文字文本块，对各类数据集采取不同的策略。
　　然后对文本块进行背景骨架化。对能够直接获得候选切分路径的数据集，研究了判别最优切分路径的评价函数；对不能获得候选切分路径的数据集，进行了笔划细化，获得一些笔划的特征点，再结合背景骨架图从而获得了候选切分路径。
　　最后，通过对比，使用高斯混合模型作为评价函数，获得了62.64％的正确率。

著录项

作者
周宇;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名张田文;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.41;
关键词
脱机手写中文; 文字识别; 粘连文本行; 评价函数; 候选切分路径;

相似文献

中文文献
外文文献
专利

1. 脱机无约束手写体中文文本行的字符切分方法 [J] . 李南希 ,金连文 . 华南理工大学学报（自然科学版） . 2010,第010期
2. 基于曲线拟合和对象选择的脱机手写维吾尔文本行切分算法 [J] . 曹卫 ,薛煜阳 . 计算机与数字工程 . 2015,第008期
3. 脱机手写维吾尔文本行字符粘连区定位及分割 [J] . 张鑫 ,艾斯卡尔.艾木都拉 ,卡米力.木依丁 . 激光杂志 . 2014,第11期
4. 脱机手写女书字符图像多方向文本行提取 [J] . 黑光月 ,王江晴 ,孙阳光 . 计算机应用研究 . 2013,第002期
5. 一种脱机手写维吾尔文切分的方法 [J] . 阿地力·依米提 ,卢朝阳 ,李静 . 新疆师范大学学报（自然科学版） . 2010,第004期
6. 基于HMM的脱机手写大写金额识别中的单分类器性能分析 [C] . 王先梅 ,林子钰 . 2006中国控制与决策学术年会 . 2006
7. 基于CNN-RNN框架的脱机手写中文文本行识别模型及其加速和压缩方法的研究 [A] . 杨亚锋 . 2019

脱机手写中文识别中粘连文本行的切分与提取

目录

摘要

著录项

相似文献

相关主题

期刊订阅