首页> 外文期刊>電子情報通信学会技術研究報告 >音声認識のための非線形スペクトル変換を用いた話者適応
【24h】

音声認識のための非線形スペクトル変換を用いた話者適応

机译:使用非线性频谱变换进行语音识别的说话人自适应。

获取原文
获取原文并翻译 | 示例
           

摘要

This paper proposes a speaker adaptation technique using nonlinear spectral transform based on GMMs. One of the most popular forms of speaker adaptation is based on linear transforms, such as maximum likelihood linear regression (MLLR). In MLLR, model parameters of HMMs are linearly transformed based on the maximum likelihood (ML) fashion by using a small amount of adaptation data. Although multiple transform matrices are used according to the regression class information, only a single linear transform is applied to each state within a regression class. In the proposed technique, we define a new likelihood function combining HMMs for recognition with GMMs for spectral transform and speaker adaptation based on nonlinear transform is performed in the ML fashion. In phoneme recognition experiments, the proposed technique shows better performance than the conventional MLLR approaches.%音声認識では,モデル学習で使用した話者に対して音声の特徴が大きく外れている話者の認識精度が低下してしまう問題がある.この間題を解決するため,MLLR等の話者適応手法が用いられている.MLLR法では,回帰行列を少量の適応データから学習し,モデルパラメータを線形変換して適応を行う.このとき回帰行列はHMMの状態を分類した回帰クラス毎に与えられるが,各状態に対しては線形な変換しか表現できなかった.そこで本研究では,非線形な変換が可能なGMMに基づくスペクトル変換法を話者適応に用いることを提案する.提案法ではスペクトル変換用のGMMと認識用のHMMを統合した新しい尤度関数を定義し,尤度最大化基準により話者適応を行う.音素認識実験の結果,その有効性を確認した.
机译:本文提出了一种基于GMM的非线性频谱变换说话人自适应技术。说话人适应的最流行形式之一是基于线性变换,例如最大似然线性回归(MLLR)。在MLLR中,通过使用少量适配数据,基于最大似然(ML)方式对HMM的模型参数进行线性变换。尽管根据回归类信息使用了多个变换矩阵,但是仅单个线性变换应用于回归类中的每个状态。在提出的技术中,我们定义了一个新的似然函数,它将用于识别的HMM与用于频谱变换的GMM结合在一起,并且以ML方式执行基于非线性变换的说话人自适应。在音素识别实验中,所提出的技术显示出比常规MLLR方法更好的性能。%音声认识では,モデル学习で使用で话者に対して音声の特徴が大きく外れている话者の认识精度が低下してしまう问题がある。この间题を解决するため,MLLR等の话者适応手法が用いられている.MLLR法では,回帰行列を少量の适応データから学习し,モデルパラパーメータを线形変换して适応を行う。 MMのとき回帰行列はHMMの状态を分类した回帰クラス毎に与えられるが,各状态に対しては线形な変换しか表现できなかった。そこで本研究では,非线形な変换が可能なGMMに基づくスペクトル変换法を话者适応に用いることを贯する。初步法ではスペクトル変换用のGMMと认识用のHMMを统合した新しい尤度关数を定义し,尤度调整基准により话者适応を行う。音素认识実験の结果,その有效を确认した。

著录项

  • 来源
    《電子情報通信学会技術研究報告》 |2009年第355期|p.1-6|共6页
  • 作者单位

    名古屋工業大学 大学院工学研究科 創成シミュレーション工学専攻 〒466-8555 愛知県名古屋市昭和区御器所町;

    名古屋工業大学 大学院工学研究科 創成シミュレーション工学専攻 〒466-8555 愛知県名古屋市昭和区御器所町;

    名古屋工業大学 大学院工学研究科 創成シミュレーション工学専攻 〒466-8555 愛知県名古屋市昭和区御器所町;

    名古屋工業大学 大学院工学研究科 創成シミュレーション工学専攻 〒466-8555 愛知県名古屋市昭和区御器所町;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 jpn
  • 中图分类
  • 关键词

    音声認識; 話者適応; 非線形スペクトル変換;

    机译:语音识别;说话人自适应;非线性频谱变换;

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号