Neural network; Co-attention; Visual context; Referring expression comprehension;
机译:变分语境:利用用于接地的视觉和文本上下文表达式
机译:在生成引用表达时使用视觉环境
机译:在产生参照表达时使用视觉环境
机译:通过共同关注和视觉上下文引用表达式理解
机译:引用CLEVR-REF + DataSet的表达式理解
机译:视觉词解码和上下文驱动的听觉语义集成有助于阅读理解:添加剂与乘法模型的测试
机译:在产生参照表达时使用视觉环境