基于多模态推理图神经网络的场景文本视觉问答模型

张海涛; 郭欣雨

首页> 中文期刊> 《计算机应用研究》 >基于多模态推理图神经网络的场景文本视觉问答模型

基于多模态推理图神经网络的场景文本视觉问答模型

AI论文写作 >>

AI期刊论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering,VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network,MRGNN)模型。利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征,从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。在ST-VQA和TextVQA数据集上验证了有效性,实验结果表明,相比较此任务的一些其他模型,MRGNN模型在此任务上有明显的提升。

著录项

来源
《计算机应用研究》 |2022年第1期|280-284|共6页
作者
张海涛; 郭欣雨;
展开▼
作者单位

辽宁工程技术大学软件学院;

辽宁葫芦岛125105;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
视觉问答; 图神经网络; 多模态推理; 问题自注意力;

相似文献

中文文献
外文文献
专利

1. 一种基于多模态深度特征融合的视觉问答模型 [J] . 邹芸竹 ,杜圣东 ,滕飞 . 计算机科学 . 2023,第2期
2. 问题引导的空间关系图推理视觉问答模型 [J] . 兰红 ,张蒲芬 . 中国图象图形学报 . 2022,第7期
3. 融合知识表征的多模态Transformer场景文本视觉问答 [J] . 余宙 ,俞俊 ,朱俊杰 . 中国图象图形学报 . 2022,第9期
4. 基于门控机制的联合关系推理视觉问答模型 [J] . 胡婷 ,何利力 . 智能计算机与应用 . 2023,第12期
5. 基于图神经网络的多模态视觉表征技术研究 [J] . 张晨 . 西安文理学院学报（自然科学版） . 2022,第3期
6. 动态场景因素干扰下基于卷积神经网络的视觉环路闭合探测研究 [C] . YANG Guotian ,杨国田 ,ZHANG Zihao . 第十二届中国智能机器人大会 . -1
7. 基于图神经网络的场景推理视觉问答研究 [A] . 郭欣雨 . 2022

基于多模态推理图神经网络的场景文本视觉问答模型

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅