Combining Multiple Cues for Visual Madlibs Question Answering

Tommasi Tatiana; Mallya Arun; Plummer Bryan; Lazebnik Svetlana; Berg Alexander C.; Berg Tamara L.

首页> 外文期刊>International Journal of Computer Vision >Combining Multiple Cues for Visual Madlibs Question Answering

【24h】

Combining Multiple Cues for Visual Madlibs Question Answering

机译：组合多个线索对Visual Madlibs问题的回答

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper presents an approach for answering fill-in-the-blank multiple choice questions from the Visual Madlibs dataset. Instead of generic and commonly used representations trained on the ImageNet classification task, our approach employs a combination of networks trained for specialized tasks such as scene recognition, person activity classification, and attribute prediction. We also present a method for localizing phrases from candidate answers in order to provide spatial support for feature extraction. We map each of these features, together with candidate answers, to a joint embedding space through normalized canonical correlation analysis (nCCA). Finally, we solve an optimization problem to learn to combine scores from nCCA models trained on multiple cues to select the best answer. Extensive experimental results show a significant improvement over the previous state of the art and confirm that answering questions from a wide range of types benefits from examining a variety of image cues and carefully choosing the spatial support for feature extraction.

机译：本文提出了一种回答Visual Madlibs数据集的空白填空多项选择题的方法。代替在想象成分类任务上培训的通用和常用表示，我们的方法采用了用于专业任务的网络组合，例如场景识别，人员活动分类和属性预测。我们还提出了一种用于从候选答案本地化短语的方法，以便为特征提取提供空间支持。我们将这些功能中的每一个与候选答案一起映射到通过标准化的规范相关分析（NCCA）的联合嵌入空间。最后，我们解决了一个优化问题，以便学习从多个提示上培训的NCCA模型组合得分以选择最佳答案。广泛的实验结果表明，对现有技术的显着改善，并确认从各种类型的问题回答问题，这些问题受益于检查各种图像提示并仔细选择用于特征提取的空间支持。

著录项

来源
《International Journal of Computer Vision》 |2019年第1期|共23页
作者
Tommasi Tatiana; Mallya Arun; Plummer Bryan; Lazebnik Svetlana; Berg Alexander C.; Berg Tamara L.;
展开▼
作者单位

Italian Inst Technol Milan Italy;

Univ Illinois Urbana IL USA;

Univ Illinois Urbana IL USA;

Univ Illinois Urbana IL USA;

Univ N Carolina Chapel Hill NC 27515 USA;

Univ N Carolina Chapel Hill NC 27515 USA;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类计算技术、计算机技术;
关键词
Visual question answering; Cue integration; Region phrase correspondence; Computer vision; Language;

机译：视觉问题应答;提示集成;区域短语对应;计算机愿景;语言;

相似文献

外文文献
中文文献
专利

1. Combining Multiple Cues for Visual Madlibs Question Answering [J] . Tommasi Tatiana, Mallya Arun, Plummer Bryan, International Journal of Computer Vision . 2019,第1期

机译：组合多个线索对Visual Madlibs问题的回答
2. Visual Question Answering via Combining Inferential Attention and Semantic Space Mapping [J] . Liu Yun, Zhang Xiaoming, Huang Feiran, Knowledge-Based Systems . 2020,第Nova5期

机译：通过相结合的推动和语义空间映射来应答视觉问题
3. Question-aware prediction with candidate answer recommendation for visual question answering [J] . B. Kim, J. Kim Electronics Letters . 2017,第18期

机译：带有候选答案推荐的问题感知预测，用于视觉问答
4. Visual Madlibs: Fill in the Blank Description Generation and Question Answering [C] . Licheng Yu, Eunbyung Park, Alexander C. Berg, IEEE International Conference on Computer Vision . 2015

机译：Visual Madlibs：填写空白描述生成和问题解答
5. Representation Learning of Data with Multiple Modalities with Applications to Visual Question Answering [D] . Ilievski, Ilija. 2018

机译：表示具有多种模式的数据的学习，以应用程序到视觉问题应答
6. An Effective Dense Co-Attention Networks for Visual Question Answering [O] . Shirong He, Dezhi Han 2020

机译：用于视觉问题的有效密集的联合网络
7. Solving Visual Madlibs with Multiple Cues [O] . Tommasi, Tatiana, Mallya, Arun, Plummer, Bryan, 2017

机译：用多个线索解决Visual madlibs
8. Classification-Based Strategies for Combining Multiple 5-W Question Answering Systems. [R] . Hakkani-Tur, D., Tur, G., Grishman, R., 2013

机译：基于分类的多个5-W问答系统组合策略。

Combining Multiple Cues for Visual Madlibs Question Answering

摘要

著录项

相似文献

相关主题

期刊订阅