基于硬注意力机制的多模态视频字幕的处理

郭宁宁; 蒋林华

首页> 中文期刊> 《计算机应用研究》 >基于硬注意力机制的多模态视频字幕的处理

基于硬注意力机制的多模态视频字幕的处理

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

传统的视频字幕生成模型大多都采用编码器—译码器框架.在编码阶段,使用卷积神经网络对视频进行处理.在解码阶段,使用长短期记忆网络生成视频的相应字幕.基于视频的时序相关性和多模态性,提出了一个混合型模型,即基于硬注意力的多模态视频字幕的生成模型.该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述.这个混合模型在数据集MSR-VTT(Microsoft research video to text)上得到的机器翻译指标较基础模型有0.2％～3.8％的提升.根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述字幕.

著录项

来源
《计算机应用研究》 |2021年第3期|956-960|共5页
作者
郭宁宁; 蒋林华;
展开▼
作者单位

上海理工大学光电信息与计算机工程学院上海200093;

上海理工大学光电信息与计算机工程学院上海200093;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工神经网络与计算;
关键词
编码器—解码器; 多模态融合; 注意力机制;

相似文献

中文文献
外文文献
专利

1. 基于优化注意力机制的图像字幕生成方法研究 [J] . 陈彪 ,周之平 ,叶琴 . 南昌航空大学学报（自然科学版） . 2021,第001期
2. 基于多粒度视频信息和注意力机制的视频场景识别 [J] . 袁韶祖 ,王雷全 ,吴春雷 . 计算机系统应用 . 2020,第005期
3. 基于注意力机制的多模态人体行为识别算法 [J] . 宋真东 ,杨国超 ,马玉鹏 . 计算机测量与控制 . 2022,第2期
4. 基于双向注意力机制的多模态情感分类方法 [J] . 黄宏展 ,蒙祖强 . 计算机工程与应用 . 2021,第011期
5. 基于注意力机制的特征融合-双向门控循环单元多模态情感分析 [J] . 赖雪梅 ,唐宏 ,陈虹羽 . 计算机应用 . 2021,第005期
6. 基于注意力机制的视频显著区域提取方法 [C] . 李毅泉 ,须德 ,郎丛妍 . 第十四届计算机辅助设计与图形学学术会议 . 2006
7. 基于字幕的新闻视频检索中字幕定位算法的研究 [A] . 蓝照华 . 2008

基于硬注意力机制的多模态视频字幕的处理

摘要

著录项

相似文献

相关主题

期刊订阅