针对目标的视频文字描述

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着深度学习的成功，人工智能领域取得了革命性的进步，各领域的研究发展迅速，其中计算机视觉与自然语言处理结合领域的研究同样受到了学者们广泛的关注。视频文字描述生成就是一项结合了计算机视觉与自然语言处理的任务，它不仅要求算法模型能够很好地提取出视频中的有用信息，还需要模型能够将这些信息有效地组合起来，准确地建立与自然语言信息的相关匹配。首先本文为了建立高性能的视频文字描述算法，提出了先对视频帧建立场景图然后利用图卷积进行特征编码的方式。在建立场景图时，先利用Faster R-cnn目标检测算法检测出视频帧中各目标的位置以及类别信息；然后利用这些检测信息建立简单的全连接模型对目标的实体属性信息进行检测；随后建立关系检测模型对各个目标之间的关联进行检测，其中为了降低稀疏的目标关联造成的检测开销过大问题，本文提出了一种基于自注意力的剪枝模型。利用所有的检测信息可以构建包含有目标节点、目标属性节点、目标关联节点的场景图。这样的场景图能够包含视频帧中几乎所有的语义信息，然后通过图卷积网络来对场景图进行编码。然后在利用图卷积对视频帧进行编码时，本文通过embedding精简了以上场景图结构，使场景图只包含有目标节点，目标关联通过有向边来表示；然后本文对图卷积进行了改进，使之能够应用于有向图中，并且将乘性注意力机制添加进了图卷积中，使得图卷积中各节点能够更好的权衡与邻居节点的关系。通过这样的视频帧编码方式，能够使得特征能够细化到图像中的各个目标，并且包含各个目标的相互关联，相比传统的对视频帧利用卷积网络提取的整体特征更加鲁棒。随后为了学习到视频帧之间以及视频文字描述序列之间的长时间步依赖关系，本文使用Transformer来代替传统的循环神经网络，提高了模型的序列特征学习能力以及训练效率。最后的实验结果表明，本文所构建的算法能够生成更贴近视频目标的文字描述，在MSR-VTT数据集上取得了不错的成绩。

著录项

作者
甘卓欣;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机技术
授予学位硕士
导师姓名 James Gee;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
目标; 视频; 文字;

相似文献

中文文献
外文文献
专利

1. 一种针对彩色视频图像中目标检测的改进模型 [J] . 孙诚 ,杨磊 ,王志海 . 数学建模及其应用 . 2017,第001期
2. 一种针对彩色视频图像中目标检测的改进模型 [J] . 孙诚1 ,杨磊2 ,王志海2 . 数学建模及其应用 . 2017,第001期
3. 一种改进的Mean Shift目标跟踪算法——针对视频对象部分遮挡和光照变化 [J] . 郑增国 ,宣士斌 ,桑高丽 . 广西民族大学学报（自然科学版） . 2012,第001期
4. 直播视频与大视频的盈利对比分析——针对盈利状况和盈利模式 [J] . 战晓卉1 ,刘捷1 . 金融 . 2019,第003期
5. R＆S公司推出一款针对MHL视频接口的全功能视频分析仪 [J] . . 电子测试 . 2012,第004期
6. 针对快速视频检索的DCT域内基于高斯模型的视频镜头内容代表 [C] . 蔡骋 ,谈正 . 第十二届全国图象图形学学术会议 . 2005
7. 基于短视频的文字描述生成与片段热度预测 [A] . 周杰 . 2019

针对目标的视频文字描述

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅