首页> 外文OA文献 >Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
【2h】

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

机译:图像标题和视觉问题的自下而上的关注

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Top-down visual attention mechanisms have been used extensively in imagecaptioning and visual question answering (VQA) to enable deeper imageunderstanding through fine-grained analysis and even multiple steps ofreasoning. In this work, we propose a combined bottom-up and top-down attentionmechanism that enables attention to be calculated at the level of objects andother salient image regions. This is the natural basis for attention to beconsidered. Within our approach, the bottom-up mechanism (based on FasterR-CNN) proposes image regions, each with an associated feature vector, whilethe top-down mechanism determines feature weightings. Applying this approach toimage captioning, our results on the MSCOCO test server establish a newstate-of-the-art for the task, improving the best published result in terms ofCIDEr score from 114.7 to 117.9 and BLEU-4 from 35.2 to 36.9. Demonstrating thebroad applicability of the method, applying the same approach to VQA we obtainfirst place in the 2017 VQA Challenge.
机译:自上而下的视觉注意力机制已广泛应用于ImageCaptioning和VQA),以通过细粒度分析甚至多步骤甚至多步骤来实现更深入的InformunerStand。在这项工作中,我们提出了一个组合的自下而上的自上而下的注意力机制,使得能够在物体和其他突出图像区域的水平下计算。这是关注被剥夺的自然基础。在我们的方法中,自下而上机制(基于FasterR-CNN)提出了每个具有相关特征向量的图像区域,而自上而下机制确定特征权重。应用此方法ToImage标题,我们的Mscoco测试服务器的结果为任务建立了一个新的艺术品,从34.7至117.9和35.2到36.9的人员,从34.7到117.9和Bleu-4的比分中提高了最佳发布结果。展示该方法的Bread适用性,在2017年VQA挑战中应用了与VQA的VQA相同的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号