Multi-modal Feature Fusion Based on Variational Autoencoder for Visual Question Answering

机译：基于变分自动编码器的多模态特征融合用于视觉问答

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Visual Question Answering (VQA) tasks must provide correct answers to the questions posed by given images. Such requirement has been a wide concern since this task was presented. VQA consists of four steps: image feature extraction, question text feature extraction, multi-modal feature fusion and answer reasoning. During multimodal feature fusion, outer product calculation is used in existing models, which leads to excessive model parameters, high training overhead, and slow convergence. To avoid these problems, we applied the Variational Autoencoder (VAE) method to calculate the probability distribution of the hidden variables of image and question text. Furthermore, we designed a question feature hierarchy method based on the traditional attention mechanism model and VAE. The objective is to investigate deep questions and image correlation features to improve the accuracy of VQA tasks.

机译：视觉问题解答（VQA）任务必须为给定图像提出的问题提供正确答案。自提出这项任务以来，这种要求一直是人们广泛关注的问题。 VQA包括四个步骤：图像特征提取，问题文本特征提取，多模式特征融合和答案推理。在多峰特征融合过程中，现有模型使用了外部乘积计算，这会导致模型参数过多，训练费用较高以及收敛速度较慢。为了避免这些问题，我们应用了变分自动编码器（VAE）方法来计算图像和问题文本的隐藏变量的概率分布。此外，我们设计了基于传统注意力机制模型和VAE的问题特征层次方法。目的是研究深层问题和图像关联功能，以提高VQA任务的准确性。

著录项

来源
《Chinese conference on pattern recognition and computer vision》|2019年|657-669|共13页
会议地点 Xian(CN)
作者
Liqing Chen; Yifan Zhuo; Yingjie Wu; Yilei Wang; Xianghan Zheng;
展开▼
作者单位

College of Mathematics and Computer Science Fuzhou University Fuzhou Fujian Province China;

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Visual Question Answering; Multi-modal feature fusion; Variational Auroencoder; Attention mechanism;

机译：视觉问答多模式特征融合；变种Auroencoder；注意机制;

相似文献

外文文献
中文文献
专利

1. Attention Based Multi-Modal Fusion Architecture for Open-Ended Video Question Answering Systems [J] . Sumedh Pendurkar, Sameer Kolpekwar, Shreyas Dhoot, Procedia Computer Science . 2020,第5期

机译：基于关注的开放式视频问题应答系统的多模态融合架构
2. Multimodal feature fusion by relational reasoning and attention for visual question answering [J] . Zhang Weifeng, Yu Jing, Hu Hua, Information Fusion . 2020,第期

机译：通过关系推理和关注的多模式特征融合
3. Hierarchical deep multi-modal network for medical visual question answering [J] . Deepak Gupta, Swati Suman, Asif Ekbal Expert systems with applications . 2021,第Feba期

机译：用于医学视觉问题的分层深层多模态网络
4. Multi-modal Feature Fusion Based on Variational Autoencoder for Visual Question Answering [C] . Liqing Chen, Yifan Zhuo, Yingjie Wu, Chinese conference on pattern recognition and computer vision . 2019

机译：基于变形式自动化器的多模态特征融合，用于视觉问题的回答
5. Context Based Multi-Image Visual Question Answering (VQA) in Deep Learning [D] . Peddinti, Sudhakar Reddy. 2018

机译：深度学习中基于上下文的多图像视觉问答（VQA）
6. Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering [O] . Zihan Guo, Dezhi Han 2020

机译：用于视觉问题的多模态显式稀疏关注网络
7. Answer-checking in Context: A Multi-modal Fully Attention Network for Visual Question Answering [O] . Hantao Huang, Tao Han, Wei Han, 2021

机译：在上下文中回答检查：用于视觉问题的多模态完全注意网络

Multi-modal Feature Fusion Based on Variational Autoencoder for Visual Question Answering

摘要

著录项

相似文献

相关主题

期刊订阅