基于最大熵模型的OCR错误校正方法

摘要

OCR(光学字符识别)是指先获取带汉字的图像,然后对图像文件进行分析处理,获取文字信息的过程.在识别出文字之后,如何利用上下文信息来纠正识别错误的字,也是就所谓的错误校正,进而提高识别正确率,是OCR中重要的课题.本文介绍了一种基于最大熵模型的校正方法,很大限度地利用了上下文信息,可以同时纠正多个识别错误的汉字,在实验中取得了很好的效果.通过对比几种不同的校正方案,可以看出基于最大熵模型的错误校正方法是最有效的,也是扩展性最好的方法,它可以方便地利用各种语言特征,更进一步的提高准确率.实验结果表明基于最大熵的模型是一个很适合OCR校正的模型.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号