首页> 外文学位 >Utilizing big data in identification and correction of OCR errors.
【24h】

Utilizing big data in identification and correction of OCR errors.

机译:利用大数据识别和纠正OCR错误。

获取原文
获取原文并翻译 | 示例

摘要

In this thesis, we report on our experiments for detection and correction of OCR errors with web data. More specifically, we utilize Google search to access the big data resources available to identify possible candidates for correction. We then use a combination of the Longest Common Subsequences (LCS) and Bayesian estimates to automatically pick the proper candidate.;Our experimental results on a small set of historical newspaper data show a recall and precision of 51% and 100%, respectively. The work in this thesis further provides a detailed classification and analysis of all errors. In particular, we point out the shortcomings of our approach in its ability to suggest proper candidates to correct the remaining errors.
机译:在本文中,我们报告了使用Web数据检测和纠正OCR错误的实验。更具体地说,我们利用Google搜索来访问可用的大数据资源,以识别可能的校正对象。然后,我们使用最长公共子序列(LCS)和贝叶斯估计的组合来自动选择合适的候选者。我们在少量历史报纸数据上的实验结果显示,召回率和准确度分别为51%和100%。本文的工作进一步提供了所有错误的详细分类和分析。特别是,我们指出了我们的方法在建议合适的候选人来纠正剩余错误方面的缺点。

著录项

  • 作者

    Agarwal, Shivam.;

  • 作者单位

    University of Nevada, Las Vegas.;

  • 授予单位 University of Nevada, Las Vegas.;
  • 学科 Computer science.;Web studies.;Information technology.
  • 学位 M.S.C.S.
  • 年度 2013
  • 页码 63 p.
  • 总页数 63
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号