...
首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >Deep Neural Networkを用いた話者空間基底への射影による声質変換
【24h】

Deep Neural Networkを用いた話者空間基底への射影による声質変換

机译:使用深度神经网络通过投影到扬声器空间基础来转换语音质量

获取原文
获取原文并翻译 | 示例
           

摘要

本研究では,入出力に任意話者を用いることのできる柔軟な声質変換を目的とし,Deep Neural Network (DNN)とEigenvoice GMMs(EVGMM)の枠組みを組み合わせた変換手法を提案する.初めに大規模話者コーパスを用いてEVGMMの学習を行い,GMMの話者空間の基底ベクトル群を得る.EVGMMにおいては,この基底ベクトル群に対して目的話者に固有の重みベクトルを掛けることで目的話者のGMM平均ベクトルを決定する.提案手法では,重みベクトルとして1-of-K表現ベクトルを用いることで,話者空間を張る基底話者群のGMMを近似する.近似したGMMによって大規模コーパス中の各話者の特徴量を基底話者群の特徴量へ分解することができる.これらを用いることでDNNによって「ある話者の特徴量から基底話者群の特徴量への変換」と「基底話者群の特徴量から目的話者への変換」在の学習をそれぞれ行う.提案手法に対して,適応データ数に対する未知話者への変換精度の客観評価を行った結果,既存手法であるEVGMMを上回る精度が得られた.
机译:在这项研究中,我们提出了一种结合了深度神经网络(DNN)和本征语音GMM(EVGMM)框架的转换方法,目的是实现灵活的语音质量转换,从而允许使用任意扬声器进行输入和输出。首先,使用大规模说话人语料对EVGMM进行训练,并获得GMM说话人空间的基本向量组。在EVGMM中,通过将基本向量组乘以目标说话者唯一的权重向量,可以确定目标说话者的GMM平均向量。在提出的方法中,K的1表示向量用作权重向量,以近似扩展扬声器空间的基本扬声器组的GMM。近似的GMM可以将大型语料库中每个说话者的特征分解为基本说话者组的特征。通过使用这些,DNN分别用于学习“从某个说话者的特征量到基本说话者组的特征量的转换”和“从基本说话者组的特征量到目标说话者的转换”的存在。客观地评估了针对自适应数据的数量所提出的方法到未知说话人的转换精度,该精度高于现有方法EVGMM。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号