Attention-Based Audio-Visual Fusion for Video Summarization

机译：基于注意力的视听融合以进行视频汇总

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Video summarization compresses videos while preserving the most meaningful content for users. Many image-based works focus on how to effectively utilize video visual cues to choose keyframes. However, apart from visual content, videos also contain useful audio information. In this paper, we propose a novel attention-based audio-visual fusion framework which integrates the audio information with visual information. Our framework is composed of two key components: asymmetrical self-attention mechanism, and odd-even attention. The asymmetrical self-attention mechanism addresses the problem that visual information is more strongly related to video summarization than audio information. The odd-even attention focuses on alleviating the memory requirements. Besides, we create ViAu-SumMe, an audio-visual dataset, which is based on SumMe dataset. Experimental results on the dataset show that our proposed method outperforms the state-of-the-art methods.

机译：视频摘要可在压缩视频的同时为用户保留最有意义的内容。许多基于图像的作品都集中于如何有效利用视频视觉提示来选择关键帧。但是，除了视觉内容之外，视频还包含有用的音频信息。在本文中，我们提出了一种新颖的基于注意力的视听融合框架，该框架将音频信息与视觉信息相集成。我们的框架由两个关键组件组成：不对称的自我注意机制和奇偶注意。非对称自我关注机制解决了以下问题：视觉信息与视频摘要的关系比音频信息更紧密。奇偶注意力集中在减轻内存需求上。此外，我们基于SumMe数据集创建了一个视听数据集ViAu-SumMe。数据集上的实验结果表明，我们提出的方法优于最新方法。

著录项

来源
《International conference on neural information processing;Annual conference of Asia-Pacific Neural Network Society》|2019年|328-340|共13页
会议地点
作者
Yinghong Fang; Junpeng Zhang; Cewu Lu;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Video summarization; Audio-visual fusion; Self-attention;

机译：视频摘要;视听融合;自我注意;

相似文献

外文文献
中文文献
专利

1. Content-Aware Summarization of Broadcast Sports Videos: An Audio-Visual Feature Extraction Approach [J] . Abdullah Aman Khan, Jie Shao, Waqar Ali, Neural processing letters . 2020,第3期

机译：广播运动视频的内容感知摘要：视听特征提取方法
2. Summarization of Multiple News Videos Considering the Consistency of Audio-Visual Contents [J] . Ye Zhang, Ryunosuke Tanishige, Ichiro Ide, International journal of semantic computing . 2019,第1期

机译：考虑视听内容一致性的多个新闻视频的概述
3. Video Summarization With Attention-Based Encoder–Decoder Networks [J] . Ji Zhong, Xiong Kailin, Pang Yanwei, IEEE Transactions on Circuits and Systems for Video Technology . 2020,第6期

机译：基于关注的编码器解码器网络的视频概述
4. Attention-Based Audio-Visual Fusion for Video Summarization [C] . Yinghong Fang, Junpeng Zhang, Cewu Lu International Conference on Neural Information Processing . 2019

机译：基于关注的视频汇总的视听融合
5. Fusion-based video segmentation and summarization. [D] . Dixon, John K. 2003

机译：基于融合的视频分割和汇总。
6. Automatic summarization of soccer highlights using audio-visual descriptors [O] . A Raventós, R Quijada, Luis Torres, -1

机译：使用视听描述符自动汇总足球精彩片段
7. Video Summarization With Attention-Based Encoder–Decoder Networks [O] . Zhong Ji, Kailin Xiong, Yanwei Pang, 2020

机译：基于关注的编码器解码器网络的视频概述

Attention-Based Audio-Visual Fusion for Video Summarization

摘要

著录项

相似文献

相关主题

期刊订阅