首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >雑音に頑健な音韻モデルと教師なし話者適応
【24h】

雑音に頑健な音韻モデルと教師なし話者適応

机译:耐噪语音模型和无监督说话人适应

获取原文
获取原文并翻译 | 示例
           

摘要

実環境において頑健に音声認識を行うためには,音韻モデルを環境や話者に対して適応させることが重要である.特に実用化を考慮した場合,環境雑音の変動や話者の交代に迅速に対応できることが必要となる.本稿では,まず雑音下の入力音声に対しスペクトルサブトラクションを施した後,任意の小量の雑音を重畳することにより,雑音雑音の影響を低減するアルゴリズムを提案する.さらに,提案手法を十分統計量に基づく教師なし話者適応アルゴリズムに適用する.従来は対象とする環境ごとに音声データベースに雑音を重畳して十分統計量を計算する必要があったが,提案手法では各雑音の種類やSNRの変化をスペクトルサブトラクションおよび雑音の重畳により打ち消すため十分統計量を再計算する必要がなく,どのような環境においても任意の一発声文で,高速に音韻モデルの教師なし話者適応が行える.提案法をオフィス,車内,展示会場,人混みの4種類の環境において,2万語のディクテーションタスクで認識実験を行ったところ,提案手法により適応した音韻モデルの平均認識率は,雑音環境ごとにマッチさせた従来の環境·話者適応モデルと比較してほぼ同程度の認識性能を示し,さらに雑音の変動に対する頑健性が示された.さらに教師あり適応であるMLLR法との比較も報告する.
机译:重要的是使语音模型适应环境和说话者,以便在真实环境中可靠地执行声音识别。特别是在考虑实际使用时,必须能够快速响应环境噪声的波动和扬声器的变化。在本文中,我们提出了一种算法,该算法通过首先对噪声下的输入语音进行频谱减法,然后叠加任意少量的噪声,从而降低噪声对噪声的影响。此外,将所提出的方法应用于基于足够统计量的无监督说话人自适应算法。过去,有必要在每种目标环境的语音数据库上叠加噪声并计算足够的统计量,但是由于频谱的减法和噪声的叠加抵消了每种噪声类型和SNR的变化,因此所提出的方法就足够了。无需重新计算统计信息,并且可以在任何环境下以任意一击式句子高速执行语音模型的无监督说话者自适应。在办公室,汽车,展览厅和人群拥挤的四种类型的环境中,进行了20,000个单词的听写任务的识别实验,并且所提出的方法所适应的语音模型的平均识别率与每种噪声环境相匹配。与传统的环境/说话人自适应模型相比,其识别性能几乎相同,并且表现出了对噪声波动的鲁棒性。我们还报告了与监督和自适应MLLR方法的比较。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号