首页> 外文OA文献 >オートエンコーダを利用した任意話者の声質変換手法の提案
【2h】

オートエンコーダを利用した任意話者の声質変換手法の提案

机译:使用自动编码器的任意扬声器的语音质量转换方法的建议

摘要

声質変換は,入力音声を目的話者の声質に変換する技術である.声質変換手法として,従来はGaussian Mixture Model(GMM)を用いた手法がよく用いられていたが,近年のDeep Learning に関する技術の台頭により,Deep Neural Network(DNN)を用いた声質手法が注目されている.しかし,GMM やDNN を用いた手法の多くは一対一の声質変換手法を提案しており,任意話者の入力に対応した研究は少なく,従来の任意話者の声質変換手法は,一対一声質変換と比べ変換精度が劣ってしまうという問題がある.また,従来のDNN を用いた声質変換手法では,一対一変換および多対一変換において複雑なネットワークを用いるため,多くの訓練データが必要となり,かつ変換に要する時間が長くなるという問題がある. 本研究では,これらの問題を解決するため,オートエンコーダおよびスパースオートエンコーダを用いた声質変換手法を提案する.提案手法では,オートエンコーダで次元圧縮した高次特徴量を目的話者の高次特徴量へDNN で変換し,目的話者のオートエンコーダを用いて音響特徴量に復元する.評価実験では,提案手法と従来手法を比較し,オートエンコーダを用いた手法は従来手法よりも若干高い精度でスペクトル変換を行い,変換時間を短縮することができた.スパースオートエンコーダを用いた手法では,オートエンコーダを用いた提案手法と比べ,スペクトル変換精度の向上および変換した音声の自然性を改善し,任意話者の声質変換精度を向上させることができた.
机译:语音质量转换是一种将输入语音转换为目标扬声器的语音质量的技术。高斯混合模型(GMM)在过去已被广泛用作语音质量转换方法,但是由于深度学习技术的兴起,使用深度神经网络(DNN)的语音质量方法引起了人们的关注。有。但是,大多数使用GMM和DNN的方法都提出了一对一的语音质量转换方法,很少有研究涉及任意说话者的输入。存在转换精度不如转换的问题。在使用DNN的传统语音质量转换方法中,由于在一对一转换和多对一转换中使用了复杂的网络,因此需要大量的训练数据,并且转换所需的时间变长。在本研究中,为了解决这些问题,我们提出了一种使用自动编码器和稀疏自动编码器的语音质量转换方法。在所提出的方法中,由自动编码器进行尺寸压缩的高阶特征通过DNN转换为目标扬声器的高阶特征,并且通过使用目标扬声器的自动编码器恢复声学特征。在评估实验中,比较了所提出的方法和常规方法,并且使用自动编码器的方法执行光谱转换的精度比常规方法略高,并且可以缩短转换时间。与提出的使用自动编码器的方法相比,使用稀疏自动编码器的方法能够提高频谱转换的准确性和转换后的语音的自然度,并提高任意说话者的语音转换的准确性。

著录项

  • 作者

    関井 祐介;

  • 作者单位
  • 年度 2017
  • 总页数
  • 原文格式 PDF
  • 正文语种 ja
  • 中图分类
  • 入库时间 2022-08-20 20:34:48

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号