首页> 中文学位 >针对目标的视频文字描述
【6h】

针对目标的视频文字描述

代理获取

目录

声明

第一章 绪论

1.1 课题研究背景及意义

1.2 国内外研究现状

1.3 本文的主要研究内容

1.4 本论文的结构安排

第二章 相关技术介绍

2.1 残差网络

2.2 图卷积网络

2.3 LSTM

2.4 Transformer

2.4.1 比例点积注意力

2.4.2 多头注意力

2.4.3 基于位置的前馈网络

2.4.4 编码器

2.4.5 解码器

2.5 Faster R-cnn

2.5.1 Region Proposal Network

2.5.2 ROI池化

2.5.3 输出层

2.6 场景图

2.7 本章小结

第三章 场景图构建算法

3.1 数据集及数据预处理

3.1.1 Visual Genome数据集

3.1.2 数据预处理

3.2 基于Faster R-cnn的目标检测

3.2.1 匹配目标标签

3.2.2 损失函数

3.2.3 非极大值抑制

3.2.4 目标节点构建

3.3 目标属性检测

3.4 基于自注意力剪枝的目标关系检测

3.4.1 目标特征Embedding

3.4.2 基于自注意力的剪枝

3.4.3 目标关系检测

3.5 建立场景图

3.6 实验设置及结果

3.6.1 目标检测结果及分析

3.6.2 目标属性检测结果及分析

3.6.3 剪枝模型实验结果及分析

3.6.4 场景图构建算法实验结果及分析

3.7 本章小结

第四章 针对目标的视频文字描述生成模型

4.1 建立任务数学模型

4.2 图卷积帧内编码

4.2.1 场景图结构简化

4.2.2 基于注意力机制的有向图卷积

4.3 视频帧间编码

4.4 特征解码模块

4.5 评价指标

4.5.1 Bleu

4.5.2 CIDEr

4.6 基于强化学习的评估指标优化

4.7 实验结果及分析

4.7.1 MSR-VTT数据集

4.7.2 数据预处理

4.7.3 实验结果评估

4.8 本章小结

第五章 全文总结与展望

5.1 全文总结

5.2 后续工作展望

致谢

参考文献

展开▼

摘要

随着深度学习的成功,人工智能领域取得了革命性的进步,各领域的研究发展迅速,其中计算机视觉与自然语言处理结合领域的研究同样受到了学者们广泛的关注。视频文字描述生成就是一项结合了计算机视觉与自然语言处理的任务,它不仅要求算法模型能够很好地提取出视频中的有用信息,还需要模型能够将这些信息有效地组合起来,准确地建立与自然语言信息的相关匹配。 首先本文为了建立高性能的视频文字描述算法,提出了先对视频帧建立场景图然后利用图卷积进行特征编码的方式。在建立场景图时,先利用Faster R-cnn目标检测算法检测出视频帧中各目标的位置以及类别信息;然后利用这些检测信息建立简单的全连接模型对目标的实体属性信息进行检测;随后建立关系检测模型对各个目标之间的关联进行检测,其中为了降低稀疏的目标关联造成的检测开销过大问题,本文提出了一种基于自注意力的剪枝模型。利用所有的检测信息可以构建包含有目标节点、目标属性节点、目标关联节点的场景图。这样的场景图能够包含视频帧中几乎所有的语义信息,然后通过图卷积网络来对场景图进行编码。 然后在利用图卷积对视频帧进行编码时,本文通过embedding精简了以上场景图结构,使场景图只包含有目标节点,目标关联通过有向边来表示;然后本文对图卷积进行了改进,使之能够应用于有向图中,并且将乘性注意力机制添加进了图卷积中,使得图卷积中各节点能够更好的权衡与邻居节点的关系。通过这样的视频帧编码方式,能够使得特征能够细化到图像中的各个目标,并且包含各个目标的相互关联,相比传统的对视频帧利用卷积网络提取的整体特征更加鲁棒。 随后为了学习到视频帧之间以及视频文字描述序列之间的长时间步依赖关系,本文使用Transformer来代替传统的循环神经网络,提高了模型的序列特征学习能力以及训练效率。 最后的实验结果表明,本文所构建的算法能够生成更贴近视频目标的文字描述,在MSR-VTT数据集上取得了不错的成绩。

著录项

  • 作者

    甘卓欣;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 James Gee;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    目标; 视频; 文字;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号