首页> 外文期刊>電子情報通信学会技術研究報告 >和文古文書画像からの高速単語検索アルゴリズム
【24h】

和文古文書画像からの高速単語検索アルゴリズム

机译:日语文档图像中的快速词搜索算法

获取原文
获取原文并翻译 | 示例
           

摘要

毛筆文字で書かれた文書などはOCR の適用が困難である.こういった文書に対する解析手法として,文書を画像として扱い,テンプレートマッチングの要領で特定の単語を検索するという方法(ワードスポッティング)が提案されている.本研究はこの手法の高速化法を提案する.ある照合範囲におけるクエリーとの距離から,始点を固定して照合範囲を拡大した場合のクエリーとの距離の最小値を計算する.最小値が探索に用いる閾値より小さければ,クエリーとの照合を行う必要が無くなるため,照合回数を削減することができる.実際の手書き文書の画像を用いて実験を行った結果,計算時間を80%から50%程度まで削減することができた.%It is still difficult to apply the optical character recognition system to characterize hand-written documents such as those written by writing brushes. As a retrieving method to those documents, a method treating documents as the series of images and searching in them like template matching is proposed. This paper proposes a faster method. The proposed method estimates the lowest-distance between a query and a given image area. If an estimated lowest-distance is smaller than a threshold, we need not to verify with query. In experiments performed by using historical handwritten Japanese documents, the computational time of the proposed method reduces up to 50-80% of the previous.
机译:将OCR应用于以毛笔字母书写的文档非常困难。作为用于这种文档的分析方法,已经提出了一种以模板匹配(单词识别)的方式将文档视为图像并搜索特定单词的方法。这项研究提出了这种方法的加速方法。在确定的匹配范围内,从到查询的距离开始计算到查询的最小距离。如果最小值小于用于搜索的阈值,则无需与查询进行匹配,因此可以减少匹配次数。作为使用实际手写文档的图像进行实验的结果,计算时间可以从80%减少到50%。 %仍然很难应用光学字符识别系统来表征手写文件(例如用毛笔书写的文件)的特征。作为对这些文件的检索方法,该方法将文件视为一系列图像并像模板匹配一样在图像中进行搜索。本文提出了一种更快的方法,该方法估计了查询与给定图像区域之间的最小距离,如果估计的最小距离小于阈值,则无需进行查询验证。通过使用历史手写日语文件,该方法的计算时间减少了以前的50-80%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号