首页> 中文学位 >用于视频问答的多级注意力循环神经网络算法研究
【6h】

用于视频问答的多级注意力循环神经网络算法研究

代理获取

目录

声明

摘要

1.1 研究背景与意义

1.2 研究难点

1.3 发展现状

1.4 研究内容与创新点

1.5 文章组织结构

1.6 本章小结

2.1 引言

2.2 基于图片数据的视觉问答技术

2.2.1 基于基础技术和嵌入向量的工作

2.2.2 基于注意力机制和记忆机制的工作

2.2.3 基于外部知识的工作

2.3 基于视频数据的视频问答技术

2.3.1 基于静态图片特征的相关工作

2.3.2 以整体动态为特征的相关工作

2.4 本章小结

第3章 基于多级注意力机制的视频问答算法

3.1 问题模型分析

3.2 多层次注意力算法总体框架

3.3 识别视觉特征的卷积神经网络

3.3.1 神经网络基础及常见技巧概要

3.3.2 识别图像特征的卷积神经网络

3.3.3 识别视频特征的卷积神经网络

3.4 识别文本特征的词嵌入向量

3.5 学习连续数据的循环神经网络

3.6 注意力机制

3.7 基于多层次注意力机制的算法细节

3.8 本章小结

4.1 实验数据集

4.2 基准算法概要

4.3 实验参数概要

4.4 算法效果对比与分析

4.5 算法思路验证

4.6 本章小结

5.1 全文总结

5.2 研究展望

参考文献

攻读硕士学位期间的主要研究成果

致谢

展开▼

摘要

视频是网络中信息量最大的载体之一。如何更快更好地自动理解视频内容,获取所需信息,是一个十分有挑战和有意义的问题。本文从最能客观验证效果的视频问答任务着手,给定一段视频和一个问题,选出最准确的一个回答,借此来探索对上述问题更好的一种解决方案。
  在当下处理视频问答任务的方法中,大部分都是基于静态的图像特征,利用比较简单的模型来实现的。这些方法其实无法回避两个问题:第一,这些基于静态图像的方法,很可能无法很好地利用到视频帧之间的连续性,来捕捉到一些问题相关的内容。第二,这些基于简单循环神经网络的方法,对于较长的输入序列,有可能出现记忆涣散的情况。使得完成学习后,反而丢失了本应作为答案的重要信息。
  针对上面两个问题,本文在以往解决方法的基础上,采用了动态的视频图像特征,以及设计了能够进行多粒度学习的多级注意力神经网络,从而能捕捉视频更完整的信息,同时也更好地做到边学习边关注问题,保留最有可能成为回答的内容。通过这种方法,在基于Youtube2Text和VideoClip两个经典视频描述数据集以前沿方法生成的问答数据中,取得了比以往已知所有方法更好的实验效果。同时,在实验的过程中,也通过对网络内部状态的分析,印证了本文提出的算法的有效性。

著录项

  • 作者

    林靖豪;

  • 作者单位

    浙江大学;

  • 授予单位 浙江大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 蔡登;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.41;
  • 关键词

    视频图像; 注意力神经网络; 多粒度学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号