机译:端到端视听场景感知对话响应生成的分层多模式关注
机译:调查多模式场景感知对话框的主题,音频表示和注意力
机译:基于视听功能的多模式框架,用于板球视频摘要
机译:使用基于多模式注意力的视频功能的端到端视听场景感知对话框
机译:使用具有音频,视频和生物医学传感器的深度学习模型,对说话人和情感识别进行多模式传感和数据处理
机译:一种新的时增量端到端共享神经网络具有基于关注的特征融合用于多字母电机图像识别
机译:TMT:基于变压器的模型转换器,用于改善音频视觉场景感知对话框中的多模序列表示