首页> 中国专利> 基于关键词感知的多模态注意力视频问答方法与系统

基于关键词感知的多模态注意力视频问答方法与系统

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于关键词感知的多模态注意力视频问答方法与系统。包括：运用多模态特征提取和预训练模型KeyBert关键词提取算法，提取输入视频的各个多模态特征；运用关键词感知的多模态注意力算法，处理提取的各多模态特征，输出经有效关联和融合后的多模态特征；将已融合的多模态特征经过多层感知机MLP，输出预测的答案。本发明还公开了一种基于关键词感知的多模态注意力视频问答计算机设备及计算机可读存储介质。本发明在提取视频特征时，结合更为隐式的关键词特征，提取更为丰富的视频特征；在特征融合时，结合自注意力机制捕获特征的时序性，应用双向注意力机制强调模态间互相关联的信息，更有效地融合多模态特征，显著提高视频问答的准确率。

著录项

公开/公告号CN113902964A

专利类型发明专利
公开/公告日2022-01-07

原文格式PDF
申请/专利权人中山大学;
展开▼

申请/专利号CN202111053387.3
发明设计人王若梅;陈铎;周凡;
展开▼

申请日2021-09-09
分类号G06V10/80(20220101);G06N3/04(20060101);G06N3/08(20060101);
代理机构
代理人
地址 510006 广东省广州市海珠区新港西路135号
入库时间 2023-06-19 13:33:57

相似文献

专利
中文文献
外文文献

1. 基于关键词感知的多模态注意力视频问答方法与系统 [P] . 中国专利： CN113902964A . 2022-01-07
2. 基于多交互注意力的端到端多模态问答方法及系统 [P] . 中国专利： CN113297370B . 2021.11.16
3. SYSTEM AND METHOD FOR SEARCHING FOR NETWORK-BASED CONTENT IN A MULTI-MODAL SYSTEM USING SPOKEN KEYWORDS [P] . 欧洲知识产权局专利： EP1899952A4 . 2009-07-22

机译：语音关键词在多模态系统中基于网络的内容搜索系统及方法
4. SYSTEM AND METHOD FOR SEARCHING FOR NETWORK-BASED CONTENT IN A MULTI-MODAL SYSTEM USING SPOKEN KEYWORDS [P] . 欧洲知识产权局专利： EP1899952A2 . 2008-03-19

机译：语音关键词在多模态系统中基于网络的内容搜索系统及方法
5. SYSTEM AND METHOD FOR SEARCHING FOR NETWORK-BASED CONTENT IN A MULTI-MODAL SYSTEM USING SPOKEN KEYWORDS [P] . 世界知识产权组织专利： WO2007008798A3 . 2007-04-19

机译：语音关键词在多模态系统中基于网络的内容搜索系统及方法