机译:基于Fisher线性半判别分析的视听说话人二分法
机译:使用音量评估的SRP-PHAT和视频分析为会议提供多峰发言人二分法
机译:通过SVM使用传感器融合的多模式多通道在线扬声器数字化
机译:自主学习的视听说话人差异
机译:使用具有音频,视频和生物医学传感器的深度学习模型,对说话人和情感识别进行多模式传感和数据处理
机译:使用预训练的视听同步模型进行多模态扬声器二分法
机译:基于时空贝叶斯融合的视听说话人差异化
机译:强大的语音处理和识别:说话者ID,语言ID,语音识别/关键字识别,Diarization / Co-Channel /环境表征,说话者状态评估。