首页> 中文期刊>计算机应用研究 >基于综合几何关系稀疏自注意力机制的图像标注方法研究

基于综合几何关系稀疏自注意力机制的图像标注方法研究

     

摘要

针对基于Transformer框架的图像标注任务中提取视觉特征容易引入噪声问题且为了进一步提高视觉的上下文信息,提出了一种基于综合几何关系稀疏自注意力机制的图像标注方法。首先通过结合图像区域的绝对位置、相对位置和空间包含关系提取详细全面的视觉表示,获取图像中潜在的上下文信息;其次提出了注意力层权重矩阵的稀疏化方法,该方法解决了Transformer忽略图像区域的局部性并引入噪声信息的问题;最后,采用了强化学习方法作为指导策略,实现模型在句子级别优化目标序列。通过在MS-COCO数据集上进行的对比实验结果表明,提出的方法在BLEU1、BLEU4、METEOR、ROUGE-L、CIDEr和SPICE指标上分别比基线模型提升了0.2、0.7、0.1、0.3、1.2和0.4,有效提升了图像自动标注的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号