首页> 外文会议>INTERSPEECH 2012 >Speech/Nonspeech Segmentation in Web Videos
【24h】

Speech/Nonspeech Segmentation in Web Videos

机译:Web视频中的语音/非静音分段

获取原文

摘要

Speech transcription of web videos requires first detecting segments with transcribable speech. We refer to this as segmentation. Commonly used segmentation techniques are inadequate for domains such as YouTube, where videos may have a large variety of background and recording conditions. In this work, we investigate alternative audio features and a discriminative classifier, which together yield a lower frame error rate (25.3%) on YouTube videos compared to the commonly used Gaussian mixture models trained on cepstral features (30.6%). The alternative audio features perform particularly well in noisy conditions.
机译:Web视频的语音转录需要首先检测具有可转录的语音的段。我们将此称为细分。常用的分割技术对于YouTube等域来说是不充分的,其中视频可能具有各种各样的背景和记录条件。在这项工作中,我们调查了替代音频特征和判别分类器,与临时使用的高斯混合模型相比,在临时特征(30.6%)上的常用的高斯混合模型相比,在YouTube视频中共同产生较低的帧错误率(25.3%)。替代音频功能在嘈杂的条件下表现尤其良好。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号