首页> 外文期刊>電子情報通信学会技術研究報告 >新聞画像アーカイブのための画像処理技術の研究
【24h】

新聞画像アーカイブのための画像処理技術の研究

机译:报纸图像档案图像处理技术研究

获取原文
获取原文并翻译 | 示例
           

摘要

古い活字文書に対する画像同士の比較による全文検索技術が研究されている.全文検索にあたってはあらかじめ文字切り出しがなされていることが望ましいが,古い活字文書は現代の文書とは異なる特性を持っており,市販 OCR ソフトウェアでは高精度な文字切り出しが行えない.そこで本研究では,明治期の新聞画像に対する全文検索のため,高精度な文字切り出しを行うための画像処理技術について研究する.精度低下を招く要因として考えられる罫線・ノイズ・ルビを除去する手法を提案し,高精度化を図る.また,市販 OCR ソフトウェアでは古い活字文書に対するレイアウト解析に限界があるため,あらかじめ行切り出しを行うことでそれを助ける.実験の結果,文字切り出しの精度を約92%まで向上させることができた.%We previously researched a fast full text searching method using word spotting technique. This method needed to segment newspaper image into character images in advance, however it was a difficult issue. Optical character recognition can be applied only if document images are noiseless and are printed in modern technique, but it cannot be applied to old and degraded document images. We propose an image processing method to improve character segmentation. To segment a whole newspaper image into paragraph images, ruled lines are detected using Hough Transform. The paragraph images contain some hindrances for character segmentation such as ruled lines, ruby characters and noises. Our algorithms remove them. The proposed system is tested for 20 paragraph images of historical newspaper. The accuracy of character segmentation is improved to approximately 92%.
机译:正在研究通过比较旧类型文档的图像的全文搜索技术。尽管希望对全文搜索预先执行字符分割,但是旧类型的文档具有与现代文档不同的特征,并且商用OCR软件无法执行高精度的字符分割。因此,在这项研究中,我们研究了用于明治时代报纸图像全文搜索的高精度字符分割图像处理技术。我们提出了一种消除线条,噪声和红宝石的方法,这些线条被认为是导致精度下降的因素,旨在提高精度。此外,市售的OCR软件在对旧类型文档进行布局分析方面存在局限性,因此可以通过提前剪裁线条来提供帮助。实验的结果是,字符分割的准确性可以提高到约92%。 %我们之前曾研究过一种使用文字斑点技术的快速全文本搜索方法,该方法需要预先将报纸图像分割为字符图像,但这是一个难题,仅当文档图像无噪声并打印时才能应用光学字符识别在现代技术中,它不能应用于旧的和退化的文档图像。我们提出了一种图像处理方法来改进字符分割。将整个报纸图像分割为段落图像,使用Hough变换检测到界线。我们的算法将其删除。该系统针对历史报纸的20段图像进行了测试。字符分割的准确性提高到大约92%。字符分割的障碍如格线,红宝石字符和噪声。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号