Hierarchical & multimodal video captioning: Discovering and transferring multimodal knowledge for vision to language

An-An Liu; Ning Xu; Yongkang Wong; Junnan Li; Yu-Ting Su; Mohan Kankanhalli

首页> 外文期刊>Computer vision and image understanding >Hierarchical & multimodal video captioning: Discovering and transferring multimodal knowledge for vision to language

【24h】

Hierarchical & multimodal video captioning: Discovering and transferring multimodal knowledge for vision to language

机译：分层和多模式视频字幕：发现视觉的多模式知识并将其转移到语言

获取原文

获取原文并翻译 | 示例

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

Recently, video captioning has achieved significant progress through the advances of Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs). Given a video, deep learning approach is applied to encode the visual information and generate the corresponding caption. However, this direct visual to textual translation ignores the rich intermediate description, such as objects, scenes, actions, etc. In this paper, we proposed to discover and integrate the rich and primeval external knowledge (i.e., frame-based image caption) to benefit the video caption task. We propose a Hierarchical & Multimodal Video Caption (HMVC) model to jointly learn the dynamics within both visual and textual modalities for video caption task, which infers an arbitrary length sentence according to the input video with arbitrary number of frames. Specifically, we argue that the module for latent semantic discovery transfers external knowledge to generate complex and helpful complementary cues. We comprehensively evaluate the HMVC model on the Microsoft Video Description Corpus (MSVD), the MPII Movie Description Dataset (MPII-MD), and the novel dataset for 2016 MSR Video to Text challenge (MSR-VTT), and have attained a competitive performance. In addition, we evaluate the generalization properties of the proposed model by fine-tuning and evaluating the model on different datasets. To the best of our knowledge, this is the first time such analysis has been applied for the video caption task.

机译：最近，通过卷积神经网络（CNN）和递归神经网络（RNN）的发展，视频字幕已取得了重大进展。给定视频，将应用深度学习方法对视觉信息进行编码并生成相应的字幕。但是，这种直接的视觉到文本的翻译忽略了丰富的中间描述，例如对象，场景，动作等。在本文中，我们建议发现并整合丰富而原始的外部知识（即基于帧的图像标题）以有利于视频字幕任务。我们提出了一种分层和多模式视频字幕（HMVC）模型，以共同学习视频字幕任务在视觉和文本模态下的动态，该模型根据输入视频的任意数量的帧来推断任意长度的句子。具体来说，我们认为潜在的语义发现模块将外部知识转移以生成复杂且有用的互补线索。我们在Microsoft视频描述语料库（MSVD），MPII电影描述数据集（MPII-MD）和2016 MSR视频到文本挑战（MSR-VTT）的新颖数据集上对HMVC模型进行了全面评估，并获得了竞争优势。此外，我们通过在不同数据集上对模型进行微调和评估来评估所提出模型的泛化性质。据我们所知，这是第一次将此类分析应用于视频字幕任务。

著录项

来源
《Computer vision and image understanding》 |2017年第10期|113-125|共13页
作者
An-An Liu; Ning Xu; Yongkang Wong; Junnan Li; Yu-Ting Su; Mohan Kankanhalli;
展开▼
作者单位

School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China;

School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China;

Smart Systems Institute, National University of Singapore, Singapore;

NUS Graduate School for Integrative Sciences and Engineering National University of Singapore, Singapore;

School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China;

School of Computing, National University of Singapore, Singapore;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Video to text; Semantic discovery; Multi-modal fusion; Deep learning;

机译：视频到文本;语义发现;多模态融合;深度学习;

相似文献

外文文献
中文文献
专利

1. Hierarchical attention-based multimodal fusion for video captioning [J] . Wu Chunlei, Wei Yiwei, Chu Xiaoliang, Neurocomputing . 2018,第NOVa13期

机译：基于分层注意的多模式融合，用于视频字幕
2. MSVD-Turkish: a comprehensive multimodal video dataset for integrated vision and language research in Turkish [J] . Citamak Begum, Caglayan Ozan, Kuyu Menekse, Machine translation . 2021,第2期

机译：MSVD-TARTKISH：用于土耳其语的综合视觉和语言研究的全面多模式视频数据集
3. Video captioning with boundary-aware hierarchical language decoding and joint video prediction [J] . Shi Xiangxi, Cai Jianfei, Gu Jiuxiang, Neurocomputing . 2020,第Deca5期

机译：具有边界感知分层语言解码和联合视频预测的视频字幕
4. Hierarchical Vision-Language Alignment for Video Captioning [C] . Junchao Zhang, Yuxin Peng International conference on multimedia modeling . 2019

机译：视频字幕的分层视觉语言对齐
5. Multimodal Learning with Minimal Human Supervision from Videos and Natural Language [D] . Xiao, Fanyi. 2020

机译：来自视频和自然语言的最小人类监督的多式化学习
6. A Comparison of Comprehension Processes in Sign Language Interpreter Videos with or without Captions [O] . Matjaž Debevc, Danijela Milošević, Ines Kožuh -1

机译：带或不带字幕的手语翻译视频中理解过程的比较
7. Analgesia pós-operatória multimodal em cirurgia ginecológica videolaparoscópica ambulatorial: comparação entre parecoxib e tenoxicam Analgesia pos-operatoria multimodal en cirugía ginecológica videolaparoscópica ambulatorial: comparación entre parecoxib y tenoxican Multimodal analgesia in outpatient videolaparoscopic gynecologic surgery: comparison between parecoxib and tenoxicam [O] . Sérgio D. Belzarena, Mozart T. Alves, Máximo L. D. Cucco, 2005

机译：analgesiapós-operatóriamultimodalemcirurgiaginecológicavideolaparoscópicaathulatorial：comparaçãentreparecoxib e tenoxicam analgesia pos-operatoria multimodalencirugíaginecológicavideolaparoscópicaathulatorial：comparaciónentreparecoxib y tenoxican门诊视频腹腔镜妇科手术的多模式镇痛：帕瑞考昔与替诺昔康的比较
8. Online Joint Learning of Object Concepts and Language Model using Multimodal Hierarchical Dirichlet Process. [R] . Aoki, T., Nishihara, J., Nakamura, T., 2016

机译：利用多模态分层Dirichlet过程在线联合学习对象概念和语言模型。

Hierarchical & multimodal video captioning: Discovering and transferring multimodal knowledge for vision to language

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅