首页> 外文期刊>電子情報通信学会技術研究報告 >音声認識アルゴリズムの最前線
【24h】

音声認識アルゴリズムの最前線

机译:语音识别算法的最前沿

获取原文
获取原文并翻译 | 示例
       

摘要

This paper reviews recent advances in speech recognition algorithms. Although there are many algorithms used for speech recognition, decoding algorithms are the focus of this paper, which finds the most likely word sequence for a given speech input. State-of-the-art speech recognition systems employ hidden Markov models for acoustic modeling, word N-gram models for language modeling, and time-synchronous Viterbi beam search for decoding. The decoding algorithm is currently used in the framework of Weighted Finite-State Transducer (WFST)-based speech recognition, which is known as the most efficient approach. This paper mainly describes recent advances in the WFST-based approach, and also some related topics such as consensus decoding, parallel decoding, search optimization, and template-based approach. Finally, some perspectives on the decoder technology are presented.%本稿では,音声認識アルゴリズムの最近の進展について概説する.音声認識に関連するアルゴリズムは数多く存在するが,本稿では入力音声に対して最も尤もらし単語列を探索するデコーダ技術に着目する.近年の大語彙連続音声認識のデコーダは時間同期Viterbiビーム探索がベースとなっており,多くの場合,音響モデルには隠れマルコフモデル,言語モデルには単語Ⅳグラムが用いられる.そして,このデコーダを動作させる現在最も有力なアプローチは重み付き有限状態トランスデューサ(Weighted Finite-State Transducer:WFST)による音声認識である.本稿ではWFSTを中心に近年のデコーダ技術を紹介すると共に,コンセンサスデコーディング並列化,探索最適化,テンプレートベース音声認識といったWFST以外の話題にも触れ,今後のデコーダ技術の展望について述べる.
机译:本文回顾了语音识别算法的最新进展。尽管有许多用于语音识别的算法,但解码算法是本文的重点,它针对给定的语音输入找到最可能的单词序列。先进的语音识别系统将隐马尔可夫模型用于声学建模,将词N-gram模型用于语言建模,并将时间同步的维特比波束搜索用于解码。当前,在基于加权有限状态换能器(WFST)的语音识别框架中使用了解码算法,这是最有效的方法。本文主要介绍基于WFST的方法的最新进展,以及一些相关主题,例如共识解码,并行解码,搜索优化和基于模板的方法。最后,提出了一些有关解码器技术的观点。近年の大语汇合続音声认识のデコーダは时间同时Viterbiビームそして用いられる。そして,このデコーダを动作させる现在最も有力なアプローチは重み付き有限状态トランスデューサ(加权有限状态传感器:WFST)による音声认识である。と共に,コンセンサスデコーディンディ并列化,探索最适化,テンプレートベース音声认识といったWFST以外の话题にも触れ,今后のデコーダ技术の展望について述べる。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号