脱机中文手写识别—–从孤立汉字到真实文本

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

鉴于巨大的应用潜力和附加的特别难度，脱机手写汉字识别吸引了大批的研究者。近三十年的研究，主要集中在工笔手写汉字识别方面。产出的成果囊括了手写矫形、特征提取、分类器设计以及语言后处理等各个方面，进入手写文本时代的条件基本成熟。本文旨在建立脱机中文手写文本识别的基本框架，涵盖了从基础数据到评价体系，再从改进的方法到全新研究策略等一系列内容。首先构建了能够支撑中文手写文本研究任务的基础数据，HIT-MW库；并在理解问题的过程中，定义了评价字符切分和识别算法的度量准则。然后分别从切分策略和无切分策略两条不同路径开展手写文本识别方法的研究。最后，在证实切分策略和无切分策略存在明显互补性的基础上，提出基于双策略的组合系统。
　　本文分析了手写汉字识别的未来发展趋势并给出研究的逻辑结构。首先以识别对象的升级为主线，系统总结了文字识别研究的发展历史。通过分析发展历史，并结合汉字识别研究在手写库建设和识别策略方面的研究现状，指出中文手写文本识别将是未来的研究重心。这将进入一个新的时代—–“手写文本时代”。新生时代是在手写单字时代基础上的进一步发展，所以，随后评述了手写孤立汉字识别领域在手写矫形、特征提取、分类器设计以及语言后处理等各个方面的重要研究成果。
　　本文从全新角度构建了HIT-MW库。HIT-MW库是国际上首个文本级别的中文手写库，它的收集成功昭示着手写文本时代的开端。它的抄写文本来自人民日报语料库，涵盖了约800万字语料的99.33％用字。书写者经过精心确定，得到了与实际分布基本吻合的统计数据。经过系统的采样策略和缜密的过程控制，HIT-MW库不仅包含歪斜、交叠和粘连的文本行，还有抄写错误、文字涂改等真实手写现象。大量的支撑证据表明，这些基础数据可以视为全体中文手写文本的代表子集；其上的识别结果，具有统计意义。目前，该库已为十多家科研机构采用。
　　本文不仅定义了文本研究的评价准则，还从切分角度进行了方法研究。首先建立了文本切分和识别的基本评价准则。为评价文本的识别优劣，定义了识别正确率和识别准确率。两种准则可以有效刻画系统在删除错误、插入错误和替换错误上的平衡能力。为了评价不同字符切分方法，定义了切分正确率、切分精确率和切分偏差率等准则。综合应用这三种准则，可以发现切分方法在数字、标点和汉字等不同字符类型上的切分能力以及在过切分和弱切分上的偏向性。其次开展了基于切分策略的真实文本识别研究并提供了两个重要建议。第一，在设计新算法时，如果其支持证据仅依据于一种手写矫形配置上表现出的优势，那么其可信性可能并不成立；理想的方案是比较待评价新、旧系统各自最优手写矫形配置上的结果。第二，MQDF分类器需要改进，以加入先验概率信息，进一步的分析显示，采用大规模语料估计的先验信息比直接从训练集估计的先验更具稳定性。
　　本文提出基于无切分策略的真实中文手写文本识别方法。该方法在训练时直接采用手写行，不需要对字符位置进行标记；识别时无需字符切分阶段。采用同类型特征的切分系统和无切分系统间的对比实验，证实了无切分策略的可行性和巨大潜力。在这一研究框架下，针对四平面交叉特征的弱点，提出增强的四平面交叉特征（en-FPF）。与以前的方向平面不同，en-FPF的方向平面包含了重构原始图像的全部重要信息。实验表明，en-FPF在数字、标点和汉字上均有更好的识别性能，也是目前无切分框架下各项识别率最高的单项特征。en-FPF在融合了简单的网格特征，并结合主成分分析和数据共享方法之后，对汉字的识别正确率，在训练数据稀疏的条件下，仍超过50%。
　　本文在验证了两种识别策略的互补性的基础上，分别设计了串行结构和并行结构的双策略组合系统。首先定义了字符匹配率用以反映两系统在某个识别正确率上的互补能力。在这一准则的辅助下，发现两种识别策略甚至在同样训练数据和同类型特征下，仍可以很好的相互补充。随后，设计了两种双策略组合系统，扩展了多分类器研究的内容和范围。串行结构的组合系统把无切分识别器插入到切分系统的字符切分阶段。这一组合结构是在识别过程中，先启动无切分系统，随后启动切分系统。并行结构的组合系统预先以并行方式执行切分和无切分系统，然后由切分系统的度量值决定是直接输出还是转而输出无切分的结果。实验结果证实了双策略组合系统的显著效力。

著录项

作者
苏统华;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机应用技术
授予学位博士
导师姓名张田文;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.43;
关键词
脱机中文手写识别; 手写矫形; 特征提取; 分类器设计; 语言后处理;

相似文献

中文文献
外文文献
专利

1. 脱机无约束手写体中文文本行的字符切分方法 [J] . 李南希 ,金连文 . 华南理工大学学报（自然科学版） . 2010,第010期
2. 基于多信息融合的自然书写脱机中文文本行识别 [J] . 李南希 ,金连文 . 华南理工大学学报（自然科学版） . 2010,第012期
3. 一种针对汉字特点的场景图像中文文本定位算法 [J] . 张伟伟 ,汤光明 ,孙怡峰 . 信息工程大学学报 . 2014,第006期
4. 基于汉字字频向量的中文文本自动分类系统 [J] . 曹素丽 ,曾伏虎 ,曹焕光 . 山西大学学报（自然科学版） . 1999,第002期
5. 高职院校英语阅读测试中文本的真实性研究 [J] . 陈燕 ,王风月 . 成都航空职业技术学院学报 . 2016,第002期
6. 手写汉字书法美化在手写识别中的应用 [C] . GAO Yan ,高岩 ,JIN Lianwen . “文字与信息”学术研讨会 . 2012
7. 基于CNN-RNN框架的脱机手写中文文本行识别模型及其加速和压缩方法的研究 [A] . 杨亚锋 . 2019

脱机中文手写识别—–从孤立汉字到真实文本

目录

摘要

著录项

相似文献

相关主题

期刊订阅