Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models

机译：零射击交叉传输视觉模型的多语言多模态预培训

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper studies zero-shot cross-lingual transfer of vision-language models. Specifically, we focus on multilingual text-to-video search and propose a Transformer-based model that learns contextual multilingual multimodal embeddings. Under a zero-shot setting, we empirically demonstrate that performance degrades significantly when we query the multilingual text-video model with non-English sentences. To address this problem, we introduce a multilingual multimodal pre-training strategy, and collect a new multilingual instructional video dataset (Multi-HowTo100M) for pre-training. Experiments on VTT show that our method significantly improves video search in non-English languages without additional annotations. Furthermore, when multilingual annotations are available, our method outperforms recent baselines by a large margin in multilingual text-to-video search on VTT and VATEX: as well as in multilingual text-to-image search on Multi30K.

机译：本文研究零拍摄的视觉语言模型的交叉传输。具体而言，我们专注于多语言文本到视频搜索，并提出一种基于变换器的模型，用于学习上下文的多语言多模式嵌入品。在零拍摄环境下，我们经验证明，当我们用非英语句子查询多语言文本视频模型时，性能显着降低。为了解决这个问题，我们介绍了多语言的多模式预训练策略，并收集了一个新的多语言教学视频数据集（Multi-HOWTO100M）以进行预培训。 VTT的实验表明，我们的方法在没有额外注释的情况下，我们的方法在非英语语言中显着改善了视频搜索。此外，当多语言注释可用时，我们的方法在VTT和Vatex上的多语言文本到视频搜索中的大余量优于最近的基线：以及多通平面积的多语言文本到图像搜索中。

著录项

来源
《Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies》|2021年|2443-2459|共17页
会议地点
作者
Po-Yao Huang; Mandela Patrick; Junjie Hu; Graham Neubig; Florian Metze; Alexander Hauptmann;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. Multilingual modeling of cross-lingual spelling variants [J] . Krister Linden Information retrieval . 2006,第3期

机译：跨语言拼写变体的多语言建模
2. A joint learning approach with knowledge injection for zero-shot cross-lingual hate speech detection [J] . Endang Wahyu Pamungkas, Valerio Basile, Viviana Patti Information Processing & Management . 2021,第4期

机译：具有零射击交叉仇恨语音检测知识注射的联合学习方法
3. Zero-Shot Cross-Lingual Neural Headline Generation [J] . Shi-qi Shen, Yun Chen, Cheng Yang, Audio, Speech, and Language Processing, IEEE/ACM Transactions on . 2018,第12期

机译：零射跨语言神经标题生成
4. Cross-Lingual Pre-Training Based Transfer for Zero-Shot Neural Machine Translation [C] . Baijun Ji, Zhirui Zhang, Xiangyu Duan, AAAI Conference on Artificial Intelligence . 2020

机译：基于交叉定向训练的零射击神经机翻译转移
5. Multilingual model using cross-lingual word embeddings based on subword alignment and cross-task projection利用統計を見る [D] . Sakuma Jin 2019

机译：使用基于子词对齐和跨任务投影的跨语言词嵌入的多语言模型
6. A multilingual and multimodal approach to literacy teaching and learning in urban education: a collaborative inquiry project in an inner city elementary school [O] . Burcu Yaman Ntelioglou, Jennifer Fannin, Mike Montanera, 2014

机译：城市教育中扫盲教学的多语言和多模式方法：内城小学的合作探究项目
7. Cross-Lingual Pre-Training Based Transfer for Zero-Shot Neural Machine Translation [O] . Baijun Ji, Zhirui Zhang, Xiangyu Duan, 2020

机译：基于交叉定向训练的零射击神经机翻译

Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models

摘要

著录项

相似文献

相关主题

期刊订阅