首页> 外文期刊>電子情報通信学会技術研究報告 >An Impact of Parts Of Speech Analysis on Automatic Classification of OCR texts
【24h】

An Impact of Parts Of Speech Analysis on Automatic Classification of OCR texts

机译:词性分析对OCR文本自动分类的影响

获取原文
获取原文并翻译 | 示例
       

摘要

Automatic classification of Optical Character Reader (OCR) texts is important in applications such as institutional repositories and information retrieval. However it is currently impossible for OCR technology to recognize all characters with accuracy of 100%. Furthermore it is not known whether part of speech (POS) analysis contributes to OCR texts representation in a discriminative way. In this paper we experimentally evaluated POS analysis on OCR texts to formulate an informative feature set. Empirical results indicate that the selection of suitable POS improved classification performance of OCR texts.
机译:光学字符阅读器(OCR)文本的自动分类在诸如机构存储库和信息检索之类的应用中很重要。但是,OCR技术目前不可能以100%的精度识别所有字符。此外,尚不清楚词性(POS)分析是否以判别方式有助于OCR文本表示。在本文中,我们通过实验评估了OCR文本上的POS分析,从而形成了功能丰富的功能集。实验结果表明,选择合适的POS可以提高OCR文本的分类性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号