机译:基于听觉,视觉和文本注意的电影摘要多模态显着性和融合
School of Electrical and Computer Engineering, National Technical University of Athens, Athens, Greece|c|;
Attention; audio saliency; fusion; movie summarization; multimodal saliency; multistream processing; text saliency; video summarization; visual saliency;
机译:基于动态关注的可解释的语言与文本和视觉融合
机译:电影中暴力检测的视听处理的多模式和基于本体的融合方法
机译:使用文本概念直方图和选择性加权后期融合方案对视觉概念进行多模式识别
机译:基于视觉,音频和文本模式预测视听显着事件,以进行电影摘要
机译:基于语音的情感计算,使用多模式融合的注意力
机译:变形的低级视觉功能会影响基于显着性的视觉注意
机译:基于听觉,视觉和文字注意的电影摘要多模态显着性和融合