基于多模态融合的视觉问答传输注意网络

王茂; 彭亚雄; 陆安江

首页> 中文期刊> 《电子科技》 >基于多模态融合的视觉问答传输注意网络

基于多模态融合的视觉问答传输注意网络

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对传统视觉问答任务无法完全捕捉多模态特征之间复杂相关性的缺点,文中提出了基于多模态融合的视觉问答传输注意网络。在特征提取部分,分别利用GloVe词嵌入+LSTM提取问题特征,并使用ResNet-152网络提取图像特征。通过3层传输注意网络进行多模态融合来学习全局多模态嵌入信息,进而使用该嵌入重新校准输入特征。文中设计了一个多模态传输注意学习架构,通过对传输网络进行重叠计算,使组合特征聚焦在图像和问题的细粒度部分,提高了预测答案的准确率。在VQA v1.0数据集上的实验结果表明,该模型的总体准确率达到了69.92%,显著优于其他5种主流视觉问答模型的准确率,证明了该模型的有效性和鲁棒性。

著录项

来源
《电子科技》 |2022年第12期|72-77|共6页
作者
王茂; 彭亚雄; 陆安江;
展开▼
作者单位

贵州大学大数据与信息工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
视觉问答; 多模态特征; 组合特征; 多模态嵌入; 注意力; 传输网络; 细粒度; 多模态融合;

相似文献

中文文献
外文文献
专利

1. 面向视觉问答的跨模态交叉融合注意网络 [J] . 王茂 ,彭亚雄 ,陆安江 . 计算机应用 . 2022,第3期
2. 基于多模态双向导向注意的视觉问答 [J] . 鲜荣 ,何小海 ,吴晓红 . 太赫兹科学与电子信息学报 . 2021,第001期
3. 基于多模态双向导向注意的视觉问答 [J] . 鲜荣 ,何小海 ,吴晓红 . 太赫兹科学与电子信息学报 . 2021,第001期
4. 基于多模态推理图神经网络的场景文本视觉问答模型 [J] . 张海涛 ,郭欣雨 . 计算机应用研究 . 2022,第1期
5. 基于自注意力模态融合网络的跨模态行人再识别方法研究 [J] . 杜鹏 ,宋永红 ,张鑫瑶 . 自动化学报 . 2022,第6期
6. 基于Spatial-DCTHash动态参数网络的视觉问答算法 [C] . Meng Xiangshen ,孟祥申 ,Jiang Aiwen . 第十五届全国计算语言学学术会议（CCL2016）暨第四届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD-2016） . -1

基于多模态融合的视觉问答传输注意网络

摘要

著录项

相似文献

相关主题

期刊订阅