【24h】

Multimodal Document Image Classification

机译:多峰文档图像分类

获取原文

摘要

State-of-the-art methods for document image classification rely on visual features extracted by deep convolutional neural networks (CNNs). These methods do not utilize rich semantic information present in the text of the document, which can be extracted using Optical Character Recognition (OCR). We first study the performance of state-of-the-art text classification approaches when applied to noisy text obtained from OCR. We then show that fusing this textual information with visual CNN methods produces state-of-the-art results on the RVL-CDIP classification dataset.
机译:文档图像分类的最先进方法依赖于深卷积神经网络(CNNS)提取的可视特征。这些方法不利用文档文本中存在的丰富语义信息,这可以使用光学字符识别(OCR)来提取。我们首先研究从OCR获得的嘈杂文本时,研究最先进的文本分类方法的性能。然后,我们展示了使用Visual CNN方法的融合此文本信息在RVL-CDIP分类数据集上产生最先进的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号