首页> 外文期刊>電子情報通信学会技術研究報告 >Recent Evaluations of a WFST-Based Speech Recognition Decoder
【24h】

Recent Evaluations of a WFST-Based Speech Recognition Decoder

机译:基于WFST的语音识别解码器的最新评估

获取原文
获取原文并翻译 | 示例
           

摘要

This paper describes the latest performance evaluations on the Tokyo Tech Transducer-based (T~3) speech decoder. These evaluations focus on two particular tasks which include a large-vocabulary continuous speech transcription system with a 460k vocabulary evaluated on the JNAS corpus, and a voice search system developed for an all-Japan train timetables task. This paper provides a detailed explanation of the successful steps taken to construct a large integrated network which achieves high recognition performance, based on an exhaustive compar­ison of different construction strategies. Furthermore, in the context of the voice search task, this paper provides a performance comparison of two widely popular acoustic model toolkits, HTK and SphinxTrain in the unified context of the T~3 decoder. In particular these results indicate that there is a significant advantage to employing the log semiring for all WFST construction operations. These results also serve to further verify the flexibility and speed of the T~3 decoder on a variety of different tasks.%本論文では、東京工業大学で開発されているトランスデューサ駆動音声認識デコーダ(T~3)に対する最近の評価結果を報告する。二つのASRタスクによって評価を行った。一つ目のタスクは、JNASコーパスによる大語彙連続音声認識のトランスクリプションであり、二つ目は、乗換案内情報における音声検索のタスクである。まず、WFSTネットワーク構築方法の徹底比較によって、高速かつ高精度のネットワークの効率の良い構築方法について報告する。さらに、音声検索のタスクで、HTKとSphinxThinの音響モデルを、T~3で比較し、その結果を報告する。実験の結果から、WFSTネットワークの構築において、logセミリングを使用した方が総合的に良く、T~3の柔軟性と高速性を新しいタスクによって確認することができた。
机译:本文介绍了基于东京技术换能器(T〜3)语音解码器的最新性能评估。这些评估集中在两个特定的任务上,包括一个大词汇量连续语音转录系统和一个在JNAS语料库上评估的460k词汇量,以及一个针对全日本列车时间表任务开发的语音搜索系统。本文对各种构建策略进行了详尽的比较,详细说明了构建大型集成网络并成功实现较高识别性能的成功步骤。此外,在语音搜索任务的上下文中,本文在T〜3解码器的统一上下文中提供了两种流行的声学模型工具包HTK和SphinxTrain的性能比较。特别是这些结果表明,对所有WFST施工操作采用对数半圆环具有明显的优势。这些结果还有助于进一步验证T〜3解码器在各种不同任务上的灵活性和速度。%本论文では,东京工业大学一つ目のタスクは,JNASコーパスによる大语汇连続音声认识のトランスクリプションであり,二つ目は,乘换案内情报における音声検索ののまず,WFSTネットワーク构筑方法の彻底比较によって,高速かつ高级のネットワークの效率の良い构筑方法について报告する。さらに,音声検索のタスクで,HTKとSphinxThinの音响モデルを,T〜3実験比较し,からの结果を报告する。実験の结果から,WFSTネットワークの构筑において,logセミリングを使用した方が総合的に良く,T〜3の柔软性と高速性を新しいタスクによって确认することができた。

著录项

  • 来源
    《電子情報通信学会技術研究報告》 |2009年第355期|p.25-30|共6页
  • 作者单位

    Tokyo Institute of Technology, Department of Computer Science 2-12-1 Ookayama, Meguro-ku, Tokyo, 152-8552, Japan;

    Tokyo Institute of Technology, Department of Computer Science 2-12-1 Ookayama, Meguro-ku, Tokyo, 152-8552, Japan;

    Tokyo Institute of Technology, Department of Computer Science 2-12-1 Ookayama, Meguro-ku, Tokyo, 152-8552, Japan;

    Tokyo Institute of Technology, Department of Computer Science 2-12-1 Ookayama, Meguro-ku, Tokyo, 152-8552, Japan;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

    speech recogntion; WFST; LVCSR;

    机译:语音识别;WFST;轻型滑车;

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号