首页> 外文会议>日本音響学会研究発表会 >文字単位のモデルを併用した単語単位のEnd-to-End 音声認識
【24h】

文字単位のモデルを併用した単語単位のEnd-to-End 音声認識

机译:使用字符单元模型在一起的单词单元的端到端语音识别

获取原文

摘要

従来のDNN-HMM ハイブリッド音声認識より簡単な構造で実現できるEnd-to-End 音声認識に関して研究が近年なされている。End-to-End 音声認識はHMM のような潜在状態の遷移をモデル化する必要はなく,直接音響特徴量から目的の記号(音素や文字など) を推定でき,高速なデコーディングが実現できる。従来のEnd-to-End 音声認識は出力単位を音素や音節、文字などのサブワードとしており,依然として単語系列を出力する際には発音辞書や言語モデルを必要とする。これに対して,音響特徴量から単語を直接出力とするモデルも研究されている[3]。RNN を用いることで言語モデルも含めることができるので,単語単位のモデルは言語モデルが必要なく,非常に簡潔で高速な認識が実現できる。しかし単語単位モデルでは訓練データのスパース性と,未知語が認識不可能なことが問題として挙げられる。そこで本研究では文字を出力系列とするモデルを併用した単語単位End-to-End 音声認識を提案する。文字を出力単位とするモデルを併用することで訓練データの得られない問題を緩和することができる。また文字単位モデルは単語単位モデルが未知語を出力した際のデコードにも使用する。
机译:传统的DNN-HMM混合语音识别可以与一个单一结构来实现的端至端的语音识别研究在近几年已经完成。 END - 端语音识别需要潜过渡,例如HMM模型没有,直接声学特征量的目的符号(phonem或字符可估计,并且可以实现高速解码ns。常规终端到END的语音识别是输出单元和这是一个子词,例如音节,字,而且还当输出一个字序列,语音字典和语言模型我需要。在另一方面,从声学特征字一个模型被直接输出也进行了研究[3]。 RNN因为它是可以通过使用包括语言模型,字单元模型没有语言模型,是很容易良好的识别速度可以实现。然而,在字单元模型,训练数据的稀疏作为一个问题,即性和未知的语言不能被识别有可能的。因此,在这项研究中,性格输出序列使用Dell建议的单词单元端至端的语音识别做。与字符输出单元相结合的模型能缓解不能得到训练数据问题穿。在字符单元模型,字单元型号未知还用于当字是输出进行解码。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号