首页> 中国专利> 基于关键词感知的多模态注意力视频问答方法与系统

基于关键词感知的多模态注意力视频问答方法与系统

摘要

本发明公开了一种基于关键词感知的多模态注意力视频问答方法与系统。包括:运用多模态特征提取和预训练模型KeyBert关键词提取算法,提取输入视频的各个多模态特征;运用关键词感知的多模态注意力算法,处理提取的各多模态特征,输出经有效关联和融合后的多模态特征;将已融合的多模态特征经过多层感知机MLP,输出预测的答案。本发明还公开了一种基于关键词感知的多模态注意力视频问答计算机设备及计算机可读存储介质。本发明在提取视频特征时,结合更为隐式的关键词特征,提取更为丰富的视频特征;在特征融合时,结合自注意力机制捕获特征的时序性,应用双向注意力机制强调模态间互相关联的信息,更有效地融合多模态特征,显著提高视频问答的准确率。

著录项

  • 公开/公告号CN113902964A

    专利类型发明专利

  • 公开/公告日2022-01-07

    原文格式PDF

  • 申请/专利权人 中山大学;

    申请/专利号CN202111053387.3

  • 发明设计人 王若梅;陈铎;周凡;

    申请日2021-09-09

  • 分类号G06V10/80(20220101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构

  • 代理人

  • 地址 510006 广东省广州市海珠区新港西路135号

  • 入库时间 2023-06-19 13:33:57

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号