首页> 外国专利> AUDIO-VISUAL FUSION WITH CROSS-MODAL ATTENTION FOR VIDEO ACTION RECOGNITION

AUDIO-VISUAL FUSION WITH CROSS-MODAL ATTENTION FOR VIDEO ACTION RECOGNITION

机译：视频动作识别的跨模态注意力视听融合

页面导航

摘要
著录项
相似文献

摘要

An electronic device obtains video content that includes visual content and audio content. The visual content includes a plurality of visual segments, and the audio content includes a plurality of audio contents. A plurality of self-attended visual features are generated for the visual segments of the video content, and a plurality of self-attended audio features are generated for the audio segments of the audio content. The self-attended visual features are fused with the self-attended audio features to generate a plurality of fused visual features, and the self-attended audio features are fused with the self-attended visual features to generate a plurality of fused audio features. The fused visual features and the fused audio features are combined to generate a cross-modal visual-audio feature based on a respective weight associated with each of the fused visual and audio features. A video-level content label is determined based on the cross-modal visual-audio feature.

机译：电子设备获得包括视觉内容和音频内容的视频内容。视觉内容包括多个视觉段，并且音频内容包括多个音频内容。为视频内容的视觉段生成多个自行的视觉特征，并且为音频内容的音频段生成多个自我上次参加的音频特征。自我出现的视觉特征与自我参加的音频特征融合以生成多个融合的视觉特征，并且自我参加的音频特征与自我上读的视觉特征融合以产生多个融合音频特征。融合的视觉特征和熔融音频特征被组合以基于与每个融合的视觉和音频特征相关联的相应权重生成跨模型视觉音频特征。视频级内容标签是基于跨模式视觉音频特征确定的。

著录项

公开/公告号WO2021184026A1

专利类型
公开/公告日2021-09-16

原文格式PDF
申请/专利权人 INNOPEAK TECHNOLOGY INC.;
展开▼

申请/专利号WO2021US26444
发明设计人 HSIAO JENHAO;CHEN JIAWEI;
展开▼

申请日2021-04-08
分类号G06K9;G06K9/62;
国家 US
入库时间 2022-08-24 21:07:31

相似文献

专利
外文文献
中文文献