首页> 中国专利> 一种基于多模态融合的视觉问答融合增强方法

一种基于多模态融合的视觉问答融合增强方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于多模态融合的视觉问答融合增强方法。本发明步骤如下：1、利用GRU结构构建时序模型，获得问题的特征表示学习、利用从Faster R‑CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示；2、基于注意力模型Transformer进行多模态推理，引入注意力模型对图片‑问题‑答案这个三元组进行多模态融合，建立推理关系；3、针对不同的隐含关系有不同的推理过程和结果输出，再根据这些结果输出来进行标签分布回归学习，来确定答案。本发明基于特定的图片和问题得到答案直接应用于服务于盲人的应用中，能够帮助盲人或者视觉障碍者更好地感知周围环境，也应用于图片检索系统，提高图片检索的准确性和多样性。

著录项

公开/公告号CN110377710A

专利类型发明专利
公开/公告日2019-10-25

原文格式PDF
申请/专利权人杭州电子科技大学;
展开▼

申请/专利号CN201910520138.7
发明设计人颜成钢;俞灵慧;孙垚棋;张继勇;张勇东;
展开▼

申请日2019-06-17
分类号G06F16/332(20190101);G06K9/62(20060101);
代理机构33240 杭州君度专利代理事务所(特殊普通合伙);
代理人朱月芬
地址 310018 浙江省杭州市下沙高教园区2号大街
入库时间 2024-02-19 14:53:38

法律信息

法律状态公告日

法律状态信息

法律状态
2019-11-19

实质审查的生效 IPC(主分类):G06F16/332 申请日:20190617

实质审查的生效
2019-10-25

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于多模态融合的视觉问答融合增强方法 [P] . 中国专利： CN110377710A . 2019-10-25
2. 一种基于知识的视觉问答任务下的多模态信息融合方法 [P] . 中国专利： CN113240046A . 2021-08-10
3. The method and use in the glass industry, particularly for the protection of parts against corrosion by molten alloys based on palladium containing at least one element deadicion glass. [P] . ES2041818T3 . 1993-12-01

机译：该方法和在玻璃工业中的用途，特别是用于保护零件免受基于钯的熔融合金的腐蚀，该熔融合金包含至少一种元素消亡玻璃。
4. A METHOD FOR MULTI-MODAL SENSOR FUSION USING OBJECT TRAJECTORIES FOR CROSS-DOMAIN CORRESPONDENCE [P] . EP3899778A1 . 2021-10-27

机译：一种使用对象轨迹进行多模态传感器融合的方法，用于跨域对应
5. IMAGE ENHANCEMENT METHOD BASED ON MULTI-EXPOSURE GENERATION AND RE-FUSION FRAME [P] . 世界知识产权组织专利： WO2019071981A1 . 2019-04-18

机译：基于多重曝光生成和融合框架的图像增强方法