首页> 中文期刊> 《计算机应用研究》 >结合引导解码和视觉注意力的图像语义描述模型

结合引导解码和视觉注意力的图像语义描述模型

         

摘要

针对输入的图像视觉信息不能在每一步解码过程中动态调整,同时为了提高图像语义描述模型的精度和泛化能力,提出了一种结合引导解码和视觉注意力机制的双层长短时记忆(long short term memory,LSTM)网络的图像语义描述模型.将提取到的图像的视觉和目标特征通过一个引导网络建模后送入LSTM网络的每一时刻,实现端到端的训练过程;同时设计了基于图像通道特征的视觉注意力机制,提高了模型对图像细节部分的描述.利用MSCOCO和Flickr30k数据集对模型进行了训练和测试,结果显示模型性能在不同的评价指标上都得到了提升.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号