College of Mathematics and Computer Science Fuzhou University Fuzhou Fujian Province China;
Visual Question Answering; Multi-modal feature fusion; Variational Auroencoder; Attention mechanism;
机译:基于关注的开放式视频问题应答系统的多模态融合架构
机译:通过关系推理和关注的多模式特征融合
机译:用于医学视觉问题的分层深层多模态网络
机译:基于变形式自动化器的多模态特征融合,用于视觉问题的回答
机译:深度学习中基于上下文的多图像视觉问答(VQA)
机译:用于视觉问题的多模态显式稀疏关注网络
机译:在上下文中回答检查:用于视觉问题的多模态完全注意网络