Speaker diarization; multi-modal fusion; video structuration;
机译:电视脱口秀中说话人差异化的一种多模式方法
机译:基于通用维特比的时间序列分割和聚类模型,用于说话人区分
机译:与K-means的混合DE用于演讲者广播新闻的演讲者聚类
机译:电视连续剧的视听扬声器二分法
机译:同频道语音中的说话人自动识别和区分
机译:使用随机森林监督扬声器日期:一种心理治疗过程研究的工具
机译:基于视觉模式的电视剧约束扬声器日复速度
机译:强大的语音处理和识别:说话者ID,语言ID,语音识别/关键字识别,Diarization / Co-Channel /环境表征,说话者状态评估。