机译:通过多模态条件对冲网络应答的开放式视频问题
Zhejiang Univ Coll Comp Sci Hangzhou 310027 Peoples R China|Alibaba Zhejiang Univ Joint Res Inst Frontier Tec Hangzhou 310027 Peoples R China;
Zhejiang Univ Coll Comp Sci Hangzhou 310027 Peoples R China;
Zhejiang Univ Coll Comp Sci Hangzhou 310027 Peoples R China;
Zhejiang Univ Coll Comp Sci Hangzhou 310027 Peoples R China;
Zhejiang Univ Coll Comp Sci Hangzhou 310027 Peoples R China;
Zhejiang Univ Coll Comp Sci Hangzhou 310027 Peoples R China;
Open-ended video question answering; multi-modal neural network;
机译:基于关注的开放式视频问题应答系统的多模态融合架构
机译:统一开放式视频问答的视频和问题注意
机译:用于医学视觉问题的分层深层多模态网络
机译:通过分层卷积自我关注网络回答开放式长型视频问题
机译:推断回答质量,回答者专业知识以及对问题进行回答的社交网络的排名。
机译:用于视觉问题的多模态显式稀疏关注网络
机译:用于多模态视频问题的方式转换关注网络