首页> 外文会议>電子情報通信学会;電子情報通信学会総合大会 >低品質新聞画像における多手法による適応的なOCR認識精度向上に関する研究
【24h】

低品質新聞画像における多手法による適応的なOCR認識精度向上に関する研究

机译:多种技术提高低质量报纸图像自适应OCR识别精度的研究

获取原文

摘要

電子図書館など図書館文書の電子化は様々な場所で行われている. 本学図書館でも懸案となっているが, 古い新聞記事などの低品質な文書の電子化は自動化が困難な問題として残されている. 古い新聞記事はどは経年劣化などにより汚れやシミが存在する. 文書は,1 次データとしてスキャナーなどによる画像データとして保存される.新聞を対象とした場合, フォントサイズに対して画像データの解像度が十分でなく, 低解像度画像をなる傾向がある. さらに検束を可能とするために画像データから文字を読み取りテキストデータ化を図る. 画像データからテキストデータを取り出すにはOCR を用いるが低解像度性および画像上の汚れやシミが障害となる. また新聞書体である明朝体の極めて細い横線が認識率の低下を招く.そこで本研究では, 新聞画像データのイズの軽減や明朝体に特有の横線の細さを補う処理によって認識率を向上させることを目指しす. さらに,OCR の識別距離値を用いて複数の補正手法を適用的に選択する方法を導入することによって認識率を向上させる方式を提案し, 図書館に所蔵されている古い新聞画像のデータを用いた認識実験を実施し方式の性能を検証する.
机译:电子图书馆等图书馆文献的数字化已在各地进行,虽然大学图书馆正处于悬而未决的问题,但旧报纸等低质量文献的数字化仍然是难以自动化的问题。旧报纸上有污渍和由于老化等引起的污渍。通过扫描仪等将文档另存为图像数据作为主要数据。图像的分辨率不足,容易形成低分辨率的图像,另外,从图像数据读取字符并转换为文本数据以实现收敛,并使用OCR从图像数据中提取文本数据。图像上的分辨率,污点和污点是障碍,Mincho字体的极细水平线(报纸的字体)会导致识别率下降。目的是通过补偿各特有的水平线的细度的处理来提高识别率,此外,通过引入使用OCR判别距离值来自适应地选择多种校正方法的方法来提高识别率。我们提出了一种改进方法,并通过使用存储在图书馆中的旧报纸图像数据进行识别实验来验证该方法的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号