首页> 中国专利> 一种基于多模态深度特征融合的视觉问答方法及其模型

一种基于多模态深度特征融合的视觉问答方法及其模型

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于多模态深度特征融合的视觉问答方法，包括以下步骤：(1)使用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征，然后利用获取的图像和文本两种模态数据特征进行模态内部和模态间的注意力建模；(2)构建注意力网络并将注意力层串联堆叠，其中两种模态特征相互作为注意力权重学习的参考进行更深度的特征交互；(3)通过多模态融合函数融合注意力加权后的图像信息和文本语义，并将融合特征传入分类器结合答案文本数据预测结果。除此之外本发明还公开了一种基于多模态深度特征融合的视觉问答模型。本发明相较于现有方法具有稳定性好、预测准确率更高、实验硬件环境要求更低等优点。

著录项

公开/公告号CN114398961A

专利类型发明专利
公开/公告日2022-04-26

原文格式PDF
申请/专利权人西南交通大学;
展开▼

申请/专利号CN202111624056.0
发明设计人杜圣东;邹芸竹;李天瑞;张凡;张晓博;赵小乐;
展开▼

申请日2021-12-28
分类号G06K9/62;G06N3/04;G06F40/284;G06V10/80;G06V10/774;
代理机构成都擎智秉业专利代理事务所(普通合伙);
代理人李顺德
地址 610031 四川省成都市二环路北一段111号
入库时间 2023-06-19 15:03:56

法律信息

法律状态公告日

法律状态信息

法律状态
2022-04-26

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种基于多模态融合的视觉问答融合增强方法 [P] . 中国专利： CN110377710B . 2022.04.01
2. 一种基于多模态融合的视觉问答融合增强方法 [P] . 中国专利： CN110377710A . 2019-10-25
3. 一种基于动态视觉传感器的角点检测方法 [P] . 世界知识产权组织专利： WO2020/143499A1 . 2020.07.16
4. 一种行业识别模型确定方法和装置 [P] . 世界知识产权组织专利： WO2020/143377A1 . 2020.07.16
5. 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 [P] . 世界知识产权组织专利： WO2020/143321A1 . 2020.07.16