基于跨模态信息过滤的视觉问答网络

何世阳; 王朝晖; 龚声蓉; 钟珊

首页> 中文期刊> 《计算机科学》 >基于跨模态信息过滤的视觉问答网络

基于跨模态信息过滤的视觉问答网络

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。

著录项

来源
《计算机科学》 |2024年第5期|85-91|共7页
作者
何世阳; 王朝晖; 龚声蓉; 钟珊;
展开▼
作者单位

苏州大学计算机科学与技术学院;

苏州大学东吴学院;

常熟理工学院计算机科学与工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
视觉问答; 深度学习; 注意力机制; 多模态融合; 信息过滤;

相似文献

中文文献
外文文献
专利

1. 面向视觉问答的跨模态交叉融合注意网络 [J] . 王茂 ,彭亚雄 ,陆安江 . 计算机应用 . 2022,第3期
2. 基于跨模态对比学习的视觉问答主动学习方法 [J] . 张北辰 ,李亮 ,查正军 . 计算机学报 . 2022,第8期
3. 基于多模态推理图神经网络的场景文本视觉问答模型 [J] . 张海涛 ,郭欣雨 . 计算机应用研究 . 2022,第1期
4. 跨模态视觉问答与推理研究进展 [J] . 张飞飞 ,张建庆 ,屈思佳 . 数据采集与处理 . 2023,第1期
5. 面向跨模态数据协同分析的视觉问答方法综述 [J] . 崔政 ,胡永利 ,孙艳丰 . 北京工业大学学报 . 2022,第10期
6. 基于Spatial-DCTHash动态参数网络的视觉问答算法 [C] . Meng Xiangshen ,孟祥申 ,Jiang Aiwen . 第十五届全国计算语言学学术会议（CCL2016）暨第四届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD-2016） . -1
7. 基于语义信息和视觉注意力的跨模态人脸图像生成算法研究 [A] . 杨玥颖 . 2021

基于跨模态信息过滤的视觉问答网络

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅