首页> 中文期刊> 《计算机辅助设计与图形学学报》 >结合全局和局部特征的BiGRU-RA图像中文描述模型

结合全局和局部特征的BiGRU-RA图像中文描述模型

     

摘要

针对目前基于全局特征的图像描述模型存在细节语义信息不足的问题,提出结合全局和局部特征的图像中文描述模型.该模型采用编码器-解码器框架,在编码阶段,分别使用残差网络(residual networks,ResNet)和Faster R-CNN提取图像的全局特征和局部特征,提高模型对不同尺度图像特征的利用.采用嵌入了残差连接结构和视觉注意力结构的双向门控循环单元(bi-directional gated recurrent unit,BiGRU)作为解码器(BiGRU with residual connection and attention,BiGRU-RA).模型可以自适应分配图像特征和文本权重,改善图像特征区域和上下文信息的映射关系.此外,加入基于强化学习的策略梯度对模型的损失函数进行改进,直接对评价指标CIDEr进行优化.在AI Challenger全球挑战赛图像中文描述数据集上进行训练和实验,实验结果表明,该模型获得更高的评分,生成的描述语句更准确、更详细.

著录项

  • 来源
    《计算机辅助设计与图形学学报》 |2021年第1期|49-58|共10页
  • 作者单位

    广西图像图形与智能处理重点实验室 桂林 541004;

    桂林电子科技大学计算机与信息安全学院 桂林 541004;

    桂林电子科技大学计算机与信息安全学院 桂林 541004;

    桂林电子科技大学计算机与信息安全学院 桂林 541004;

    广西图像图形与智能处理重点实验室 桂林 541004;

    桂林电子科技大学计算机与信息安全学院 桂林 541004;

    广西图像图形与智能处理重点实验室 桂林 541004;

    桂林电子科技大学计算机与信息安全学院 桂林 541004;

    广西图像图形与智能处理重点实验室 桂林 541004;

    桂林电子科技大学计算机与信息安全学院 桂林 541004;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TP391.41;
  • 关键词

    图像描述; 双向门控循环单元; 视觉注意力; 强化学习; 残差连接;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号