首页> 中文学位 >基于统计分类的混排字符切分算法的研究
【6h】

基于统计分类的混排字符切分算法的研究

代理获取

目录

文摘

英文文摘

燕山大学硕士学位论文原创性声明及燕山大学硕士学位论文使用授权书

第1章绪论

第2章字符切分技术的理论基础

第3章混排字符的粗切分方法

第4章结合识别的精细切分方法

4.1汉字左右部件的合并过程

4.2判断粘连字符类型及采用的切分方法

4.3带下划线的粘连字符的切分

4.4混排字符切分算法

4.5实验结果及分析

4.6本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

作者简介

展开▼

摘要

随着信息技术和计算机技术的日益普及,人类社会已进入信息时代,把各类载体上的原始信息转化为计算机可处理和传输的电子比特信息已成为要解决的重要问题。 光学字符识别(OCR,OpticalCharacterRecognition)技术成为有效解决手工输入文字信息的重要工具,旨在完计算机的自动录入,在各领域被广泛应用,并产生了巨大的社会效益和经济效益。 目前,大多数OCR是基于对单个字符的逐个识别,字符切分是影响OCR系统识别的关键因素之一,它直接影响到识别的正确率。 本文针对中英文混排文档图像,通过分析现有的字符切分算法,提出了基于统计分类的混排字符切分方法。首先,利用投影方法对字符进行初步切分,利用贝叶斯分类器判断字符类别,在汉字部件合并时避免与英文数字合并在一起;然后,结合识别技术进行精细切分,判断字符是否为标点符号或汉字部件,对汉字部件进行合并,依据识别结果是否可信确定切分结果,判断并提取粘连字符;最后,对于搭接粘连字符采用启发式的轮廓线跟踪切分方法,对于汉字粘连字符依据汉字的平均高判断出汉字的可能宽度,找到汉字的边界,对下划线字符采用下划线提取和去除的方法,调用识别模块切分该类特殊字符。 实验结果表明,该算法的正确切分率和识别率达到99%以上,该方法对中英文混排文档有较好的切分效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号