首页> 外文会议>ACM/IEEE-CS joint conference on Digital libraries >Multi-modal information retrieval from broadcast video using OCR and speech recognition
【24h】

Multi-modal information retrieval from broadcast video using OCR and speech recognition

机译:使用OCR和语音识别从广播视频中检索多模式信息

获取原文

摘要

We examine multi-modal information retrieval from broadcast video where text can be read on the screen through OCR and speech recognition can be performed on the audio track. OCR and speech recognition are compared on the 2001 TREC Video Retrieval evaluation corpus. Results show that OCR is more important that speech recognition for video retrieval. OCR retrieval can further improve through dictionary-based post-processing. We demonstrate how to utilize imperfect multi-modal metadata results to benefit multi-modal information retrieval.
机译:我们研究了从广播视频中检索多模式信息的方法,其中可以通过OCR在屏幕上读取文本,并且可以在音轨上执行语音识别。 OCR和语音识别在2001 TREC Video Retrieval评估语料库中进行了比较。结果表明,OCR比语音识别对视频检索更重要。通过基于字典的后处理,OCR检索可以进一步改善。我们演示了如何利用不完善的多模式元数据结果来受益于多模式信息检索。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号