首页> 外文OA文献 >Improved i-vector representation for speaker diarization
【2h】

Improved i-vector representation for speaker diarization

机译:改进的i-vector表示以实现说话人区分

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

This paper proposes using a previously well-trained deep neural network (DNN) to enhance the i-vector representation used for speaker diarization. In effect, we replace the Gaussian Mixture Model (GMM) typically used to train a Universal Background Model (UBM), with a DNN that has been trained using a different large scale dataset. To train the T-matrix we use a supervised UBM obtained from the DNN using filterbank input features to calculate the posterior information, and then MFCC features to train the UBM instead of a traditional unsupervised UBM derived from single features. Next we jointly use DNN and MFCC features to calculate the zeroth and first order Baum-Welch statistics for training an extractor from which we obtain the i-vector. The system will be shown to achieve a significant improvement on the NIST 2008 speaker recognition evaluation (SRE) telephone data task compared to state-of-the-art approaches.
机译:本文提出使用先前训练有素的深度神经网络(DNN)来增强用于说话人二值化的i矢量表示。实际上,我们用已使用其他大规模数据集训练的DNN代替了通常用于训练通用背景模型(UBM)的高斯混合模型(GMM)。为了训练T矩阵,我们使用从DNN获得的监督UBM,使用滤波器组输入特征来计算后验信息,然后使用MFCC特征来训练UBM,而不是使用传统的不受监督的单一特征来监督UBM。接下来,我们联合使用DNN和MFCC功能来计算零阶和一阶Baum-Welch统计信息,以训练提取器,从而从中获得i矢量。与最先进的方法相比,该系统将显示出对NIST 2008说话者识别评估(SRE)电话数据任务的显着改善。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号