首页> 中国专利> 一种基于跨模态自注意力的无候选框指代表达理解方法

一种基于跨模态自注意力的无候选框指代表达理解方法

摘要

本发明公开了一种基于跨模态自注意力的无候选框指代表达理解方法,该方法无需预先提取候选区域,能够更加高效准确的完成指代表达理解任务。本发明的技术方案如下:第一部分为对语言及图像信息的提取和编码过程,采用YOLOv3卷积神经网络对图片信息进行特征提取,采用BERT预训练模型对语言信息进行特征提取;第二部分为基于多头注意力机制的跨模态特征加强过程,采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化;第三部分为基于多头自注意力机制的跨模态特征融合过程,利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合;第四部分为目标的定位过程,采用无锚方法,实现对目标的定位。

著录项

  • 公开/公告号CN114241191A

    专利类型发明专利

  • 公开/公告日2022-03-25

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN202111557573.0

  • 发明设计人 王鹏;索伟;孙梦阳;马瑞阳;

    申请日2021-12-19

  • 分类号G06V10/25(20220101);G06V10/40(20220101);G06V10/82(20220101);G06V10/80(20220101);G06F40/289(20200101);G06K9/62(20220101);G06N3/04(20060101);

  • 代理机构61204 西北工业大学专利中心;

  • 代理人金凤

  • 地址 710072 陕西省西安市友谊西路127号

  • 入库时间 2023-06-19 14:39:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-25

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号