【24h】

Generating Natural-Language Video Descriptions Using Text-Mined Knowledge

机译:使用文本挖掘的知识生成自然语言视频描述

获取原文

摘要

We present a holistic data-driven technique that generates natural-language descriptions for videos. We combine the output of state-of-the-art object and activity detectors with "real-world" knowledge to select the most probable subject-verb-object triplet for describing a video. We show that this knowledge, automatically mined from web-scale text corpora, enhances the triplet selection algorithm by providing it contextual information and leads to a four-fold increase in activity identification. Unlike previous methods, our approach can annotate arbitrary videos without requiring the expensive collection and annotation of a similar training video corpus. We evaluate our technique against a baseline that does not use text-mined knowledge and show that humans prefer our descriptions 61% of the time.
机译:我们提出了一种整体的数据驱动技术,可为视频生成自然语言描述。我们将最新的对象和活动检测器的输出与“现实世界”知识相结合,以选择最可能的主语-动词-对象三元组来描述视频。我们表明,该知识是从Web规模的文本语料库中自动提取的,通过为其提供上下文信息来增强三元组选择算法,并导致活动标识增加四倍。与以前的方法不同,我们的方法可以对任意视频进行批注,而无需昂贵的收集和批注类似的培训视频语料库。我们根据不使用文本挖掘知识的基准来评估我们的技术,并表明人类有61%的时间更喜欢我们的描述。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号