首页> 外文OA文献 >Multimodal Speaker Diarization Using a Pre-Trained Audio-Visual Synchronization Model

【2h】

Multimodal Speaker Diarization Using a Pre-Trained Audio-Visual Synchronization Model

机译：使用预先训练的视听同步模型进行多式扬声器日复速度

代理获取

本网站仅为用户提供外文OA文献查询和代理获取服务，本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文，但由于OA文献来源多样且变更频繁，仍可能出现获取不到、文献不完整或与标题不符等情况，如果获取不到我们将提供退款服务。请知悉。

页面导航

著录项
引文网络
相似文献
相关主题

著录项

作者

展开▼
作者单位

展开▼
年度 2019
总页数
原文格式 PDF
正文语种
中图分类

相似文献

外文文献
中文文献
专利

1. Audio-visual speaker diarization using fisher linear semi-discriminant analysis [J] . Sarafianos Nikolaos, Giannakopoulos Theodoros, Petridis Sergios Multimedia Tools and Applications . 2016,第1期

机译：基于Fisher线性半判别分析的视听说话人二分法
2. Multimodal speaker diarization for meetings using volume-evaluated SRP-PHAT and video analysis [J] . Cabanas-Molero P., Lucena M., Fuertes J. M., Multimedia Tools and Applications . 2018,第20期

机译：使用音量评估的SRP-PHAT和视频分析为会议提供多峰发言人二分法
3. Multimodal Multi-Channel On-Line Speaker Diarization Using Sensor Fusion Through SVM [J] . Peruffo Minotto Vicente, Rosito Jung Claudio, Lee Bowon Multimedia, IEEE Transactions on . 2015,第10期

机译：通过SVM使用传感器融合的多模式多通道在线扬声器数字化
4. Self-Supervised Learning for Audio-Visual Speaker Diarization [C] . Yifan Ding, Yong Xu, Shi-Xiong Zhang, IEEE International Conference on Acoustics, Speech and Signal Processing . 2020

机译：自主学习的视听说话人差异
5. Multimodal Sensing and Data Processing for Speaker and Emotion Recognition Using Deep Learning Models with Audio, Video and Biomedical Sensors [D] . Abtahi, Farnaz. 2018

机译：使用具有音频，视频和生物医学传感器的深度学习模型，对说话人和情感识别进行多模式传感和数据处理
6. Multimodal Speaker Diarization Using a Pre-Trained Audio-Visual Synchronization Model [O] . Rehan Ahmad, Syed Zubair, Hani Alquhayz, 2019

机译：使用预训练的视听同步模型进行多模态扬声器二分法
7. Audio-Visual Speaker Diarization Based on Spatiotemporal Bayesian Fusion [O] . Gebru, Israel, Ba, Sileye, Li, Xiaofei, 2017

机译：基于时空贝叶斯融合的视听说话人差异化
8. Robust Speech Processing & Recognition: Speaker ID, Language ID, Speech Recognition/Keyword Spotting, Diarization/Co-Channel/Environmental Characterization, Speaker State Assessment. [R] . Hansen, J. H. 2015

机译：强大的语音处理和识别：说话者ID，语言ID，语音识别/关键字识别，Diarization / Co-Channel /环境表征，说话者状态评估。

Multimodal Speaker Diarization Using a Pre-Trained Audio-Visual Synchronization Model

著录项

引文网络

相似文献

相关主题

期刊订阅