机译:在多个说话者场景中搜索视听对应
Department of Psychology, Queen’s University, 62 Arch st., Kingston, Ontario, K7L3N6, Canada;
Departament de Tecnologies de la Informació i les Comunicacions, Universitat Pompeu Fabra, Barcelona, Spain;
Multisensory integration; Audiovisual speech perception; Spatial attention; Visual search; Auditory search;
机译:会议中多个发言人的视听概率跟踪
机译:视频电话会议设置中多个发言人的视听本地化
机译:基于嘴唇和语音模态的视听说话人识别
机译:DANTE说话人识别模块。针对恐怖主义场景的高效健壮的自动说话人搜索解决方案
机译:视听说话人建模的概率对应映射
机译:多个说话人的视听感知学习
机译:在多个演讲者场景中搜索视听通信
机译:使用说话人相关语音识别转录多个扬声器