首页> 中文期刊>计算机应用研究 >一种新的seq2seq的可控图像字幕的生成方法

一种新的seq2seq的可控图像字幕的生成方法

     

摘要

针对当前的图像字幕方法只能够用一种黑盒的、从外部难以控制的架构描述图像的问题.创造性地将图像字幕问题转换为seq2seq问题,达到了可控生成图像字幕的效果.设计一个由图像区域构成的实体集合或实体序列作为控制信号,在实体块切换的块哨兵和带视觉哨兵的自适应注意力机制的指导下,将控制信号有规律地输入到双层的长短期记忆网络(long short term memory,LSTM)中,以可控的方式指导模型生成对应的图像字幕;此外,baseline使用cross entropy loss来早停模型的训练,引入强化学习思想来解决训练时的优化目标与评估算法效果时指标不一致的问题,进一步优化模型效果.实验表明:在MSCOCO及Flickr30k数据集上,提出的算法在生成可控图像字幕、字幕质量、多样性上达到了非常好的效果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号