首页> 中国专利> 基于共识图表征推理的定位自然图像字幕生成方法和装置

基于共识图表征推理的定位自然图像字幕生成方法和装置

摘要

本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。

著录项

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号