用于视频问答的多级注意力循环神经网络算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

视频是网络中信息量最大的载体之一。如何更快更好地自动理解视频内容，获取所需信息，是一个十分有挑战和有意义的问题。本文从最能客观验证效果的视频问答任务着手，给定一段视频和一个问题，选出最准确的一个回答，借此来探索对上述问题更好的一种解决方案。
　　在当下处理视频问答任务的方法中，大部分都是基于静态的图像特征，利用比较简单的模型来实现的。这些方法其实无法回避两个问题:第一，这些基于静态图像的方法，很可能无法很好地利用到视频帧之间的连续性，来捕捉到一些问题相关的内容。第二，这些基于简单循环神经网络的方法，对于较长的输入序列，有可能出现记忆涣散的情况。使得完成学习后，反而丢失了本应作为答案的重要信息。
　　针对上面两个问题，本文在以往解决方法的基础上，采用了动态的视频图像特征，以及设计了能够进行多粒度学习的多级注意力神经网络，从而能捕捉视频更完整的信息，同时也更好地做到边学习边关注问题，保留最有可能成为回答的内容。通过这种方法，在基于Youtube2Text和VideoClip两个经典视频描述数据集以前沿方法生成的问答数据中，取得了比以往已知所有方法更好的实验效果。同时，在实验的过程中，也通过对网络内部状态的分析，印证了本文提出的算法的有效性。

著录项

作者
林靖豪;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机科学与技术
授予学位硕士
导师姓名蔡登;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.41;
关键词
视频图像; 注意力神经网络; 多粒度学习;

相似文献

中文文献
外文文献
专利

1. 基于空间注意力推理机制的视觉问答算法研究 [J] . 李智涛 ,周之平 ,叶琴 . 计算机应用研究 . 2021,第003期
2. 利用全局与局部帧级特征进行基于共享注意力的视频问答 [J] . 王雷全 ,候文艳 ,袁韶祖 . 计算机科学 . 2021,第008期
3. 基于先验MASK注意力机制的视频问答方案 [J] . 许振雷 ,董洪伟 . 计算机工程 . 2021,第002期
4. 多级存储结构视频点播系统中的接纳控制算法研究 [J] . 荣波 ,孙景鳌 ,蔡安妮 . 计算机科学 . 2002,第006期
5. 用于视频修复的连贯语义时空注意力网络 [J] . 刘浪 ,李梁 ,但远宏 . 计算机科学 . 2021,第010期
6. 基于注意力机制的上下文相关的问答配对方法 [C] . Lu Wang ,王路 ,Lu Zhang . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 基于注意力机制与图卷积网络的视频问答研究 [A] . 张博伦 . 2021

用于视频问答的多级注意力循环神经网络算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅