机译:场景图字幕:基于结构视觉表示的图像字幕
Tianjin Univ, Sch Elect & Informat Engn, Tianjin, Peoples R China;
Tianjin Univ, Sch Elect & Informat Engn, Tianjin, Peoples R China;
Tianjin Univ, Sch Elect & Informat Engn, Tianjin, Peoples R China;
Tianjin Univ, Sch Elect & Informat Engn, Tianjin, Peoples R China;
Tianjin Univ, Sch Elect & Informat Engn, Tianjin, Peoples R China;
Image captioning; Scene graph; Structural representation; Attention;
机译:多了解少说:基于场景图的图像字幕
机译:多模式变压器,具有图像标题的多视觉视觉表示
机译:基于图像标题的交通场景理解与预测
机译:随心所欲:使用抽象场景图对图像标题生成进行精细控制
机译:音乐,图像,手势:电影和数字媒体中音乐的图形分数和视觉表示
机译:社交图像字幕:探索视觉注意力和用户注意力
机译:如你所愿:用抽象场景图的图像标题一代细粒度控制