首页> 中文期刊>计算机系统应用 >基于类时序注意力机制的图像描述方法

基于类时序注意力机制的图像描述方法

     

摘要

近年来, 注意力机制已经广泛应用于计算机视觉领域, 图像描述常用的编码器-解码器框架也不例外. 然而,当前的解码框架并未较清楚地分析图像特征与长短期记忆神经网络(LSTM)隐藏状态之间的相关性, 这也是引起累积误差的原因之一. 基于该问题, 本文提出一个类时序注意力网络(Similar Temporal Attention Network, STAN),该网络扩展了传统的注意力机制, 目的是加强注意力结果与隐藏状态在不同时刻的相关性. STAN首先对当前时刻的隐藏状态和特征向量施加注意力, 然后通过注意力融合槽(AFS)将两个相邻LSTM片段的注意力结果引入到下一时刻的网络循环中, 以增强注意力结果与隐藏状态之间的相关性. 同时, 本文设计一个隐藏状态开关(HSS)来指导单词的生成, 将其与AFS结合起来可以在一定程度上解决累积误差的问题. 在官方数据集Microsoft COCO上的大量实验和各种评估机制的结果表明, 本文提出的模型与基线模型相比, 具有明显的优越性, 取得了更有竞争力的结果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号