首页> 中国专利> 一种基于跨模态自注意力的无候选框指代表达理解方法

一种基于跨模态自注意力的无候选框指代表达理解方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于跨模态自注意力的无候选框指代表达理解方法，该方法无需预先提取候选区域，能够更加高效准确的完成指代表达理解任务。本发明的技术方案如下：第一部分为对语言及图像信息的提取和编码过程，采用YOLOv3卷积神经网络对图片信息进行特征提取，采用BERT预训练模型对语言信息进行特征提取；第二部分为基于多头注意力机制的跨模态特征加强过程，采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化；第三部分为基于多头自注意力机制的跨模态特征融合过程，利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合；第四部分为目标的定位过程，采用无锚方法，实现对目标的定位。

著录项

公开/公告号CN114241191A

专利类型发明专利
公开/公告日2022-03-25

原文格式PDF
申请/专利权人西北工业大学;
展开▼

申请/专利号CN202111557573.0
发明设计人王鹏;索伟;孙梦阳;马瑞阳;
展开▼

申请日2021-12-19
分类号G06V10/25(20220101);G06V10/40(20220101);G06V10/82(20220101);G06V10/80(20220101);G06F40/289(20200101);G06K9/62(20220101);G06N3/04(20060101);
代理机构61204 西北工业大学专利中心;
代理人金凤
地址 710072 陕西省西安市友谊西路127号
入库时间 2023-06-19 14:39:06

法律信息

法律状态公告日

法律状态信息

法律状态
2022-03-25

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种中文指代表达下的跨模态实例分割方法 [P] . 中国专利： CN112765955A . 2021-05-07
2. 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法 [P] . 中国专利： CN114676228A . 2022-06-28
3. 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 [P] . 世界知识产权组织专利： WO2020/143321A1 . 2020.07.16
4. 一种基于动态视觉传感器的角点检测方法 [P] . 世界知识产权组织专利： WO2020/143499A1 . 2020.07.16
5. 一种基于集成学习的工业控制系统入侵检测方法 [P] . 世界知识产权组织专利： WO2020/143226A1 . 2020.07.16