首页> 中文期刊> 《北京大学学报:自然科学版》 >融合物体空间关系机制的图像摘要生成方法

融合物体空间关系机制的图像摘要生成方法

         

摘要

聚焦于图像中物体间位置关系这一特定信息,提出一种融合空间关系机制的神经网络图像摘要生成模型,以期为视觉问答和语音导航等下游任务提供物体方位或轨迹等关键信息。为了增强图像编码器的物体间位置关系学习能力,通过改进Transformer结构来引入几何注意力机制,显式地将物体间位置关系融合进物体外观信息中。为了辅助完成面向特定信息的抽取和摘要生成任务,进一步提出相对位置关系的数据制作方法,并基于SpatialSense数据集制作物体间位置关系的图像摘要数据集Re-Position。与5个典型模型的对比测评实验结果表明,所提模型的5个指标在公开测试集COCO上优于其他模型,全部6个指标在本文制作的Re-Position数据集上优于其他模型。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号