印刷体汉字识别后处理方法的研究

张宏涛; 龙翀; 朱小燕; 孙俊

首页> 中文期刊>中文信息学报 >印刷体汉字识别后处理方法的研究

印刷体汉字识别后处理方法的研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题.该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法.通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解.实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能.在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%.%In Chinese OCR post-processing, the high-order Chinese n-gram language models, such as word based tri-gram and four-gram is still a challenging issue because of the data sparseness issue and large memory cost led by big model size. In this paper, we focus on the post-processing of printed Chinese character recognition and propose a byte-based language model. By choosing byte as the representing unit of language model, we achieve a remarkable reduction of model size which overcomes the sparseness problem to a great extent. The experimental results show that the new language model based on byte works very well with higher performance and lowest time and space costs. For the test set with segmentation errors, the recognition accuracy increases from 88. 67% to 98. 32% , which means 85. 18% error reduction. Compared with the system using traditional word based tri-gram, the new system saves 95% time cost and nearly 98% memory cost at almost no cost in the accuracy performance.

著录项

来源
《中文信息学报》|2009年第6期|67-71|共5页
作者
张宏涛; 龙翀; 朱小燕; 孙俊;
展开▼
作者单位

智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹)清华大学计算机系,北京,100084;

智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹)清华大学计算机系,北京,100084;

智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹)清华大学计算机系,北京,100084;

富士通研究开发中心有限公司,北京,100016;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
计算机应用; 中文信息处理; 汉字识别; OCR; 语言模型; 后处理;

相似文献

中文文献
外文文献
专利

1. 印刷体汉字识别特征选择方法的研究 [J] . 崔国伟 ,舒文豪 . 哈尔滨工业大学学报 . 1989,第002期
2. 基于不可分小波变换与Zernike矩的印刷体汉字识别方法 [J] . 刘斌 ,肖惠勇 . 计算机应用与软件 . 2018,第004期
3. 一种快速有效的印刷体汉字识别方法 [J] . 倪桂博 ,张国立 . 华北电力大学学报(自然科学版) . 2008,第003期
4. 一种用于表格处理的印刷体汉字识别方法 [J] . 唐国维 ,刘显德 ,任庆东 . 东北石油大学学报 . 2002,第003期
5. 基于部件的印刷体汉字识别方法 [J] . 王家全 . 计算机工程与应用 . 1998,第005期
6. 手写印刷体汉字识别的一种后处理方法 [C] . 曲洪亚 . 第四届全国汉字及汉语语音识别学术会议 . 1992
7. 包装箱表面印刷体汉字识别算法研究 [A] . 许赛聪 . 2008

印刷体汉字识别后处理方法的研究

摘要

著录项

相似文献

相关主题

期刊订阅