首页> 中文期刊> 《计算机应用研究》 >基于硬注意力机制的多模态视频字幕的处理

基于硬注意力机制的多模态视频字幕的处理

         

摘要

传统的视频字幕生成模型大多都采用编码器—译码器框架.在编码阶段,使用卷积神经网络对视频进行处理.在解码阶段,使用长短期记忆网络生成视频的相应字幕.基于视频的时序相关性和多模态性,提出了一个混合型模型,即基于硬注意力的多模态视频字幕的生成模型.该模型在编码阶段使用不同的融合模型将视频和音频两种模态进行关联,在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描述.这个混合模型在数据集MSR-VTT(Microsoft research video to text)上得到的机器翻译指标较基础模型有0.2%~3.8%的提升.根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述字幕.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号