首页> 外文会议>International Conference on Language Resources and Evaluation >Video Caption Dataset for Describing Human Actions in Japanese
【24h】

Video Caption Dataset for Describing Human Actions in Japanese

机译:用于描述日语的人类行为的视频标题数据集

获取原文
获取外文期刊封面目录资料

摘要

In recent years, automatic video caption generation has attracted considerable attention. This paper focuses on the generation of Japanese captions for describing human actions. While most currently available video caption datasets have been constructed for English, there is no equivalent Japanese dataset. To address this, we constructed a large-scale Japanese video caption dataset consisting of 79,822 videos and 399,233 captions. Each caption in our dataset describes a video in the form of "who does what and where." To describe human actions, it is important to identify the details of a person, place, and action. Indeed, when we describe human actions, we usually mention the scene, person, and action. In our experiments, we evaluated two caption generation methods to obtain benchmark results. Further, we investigated whether those generation methods could specify "who does what and where."
机译:近年来,自动视频标题一代引起了相当大的关注。 本文重点介绍日语标题以描述人类行为。 虽然大多数当前可用的视频标题数据集已为英语构建,但没有等效的日本数据集。 为了解决这个问题,我们构建了一个由79,822个视频和399,233个标题组成的大型日语视频字幕数据集。 我们的数据集中的每个标题描述了“谁做了什么和在哪里”的视频。 为了描述人类的行为,重要的是确定一个人,地方和行动的细节。 实际上,当我们描述人类行为时,我们通常会提到现场,人和行动。 在我们的实验中,我们评估了两个标题生成方法以获得基准结果。 此外,我们调查了这些生成方法是否可以指定“谁做的是什么和地点”。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号