首页> 外文期刊>電子情報通信学会技術研究報告 >連続単語認識における認識結果の逐次早期確定アルゴリズムの評価
【24h】

連続単語認識における認識結果の逐次早期確定アルゴリズムの評価

机译:连续词识别中识别结果的顺序早期决策算法评估

获取原文
获取原文并翻译 | 示例
       

摘要

音声認識システムにおいて,ユーザの入力発話に対する応答の遅延は入力インターフェースとして重要な課題である.遅延を軽減しユーザに早期のフィードバックを行う方法として,これまでに,仮説を部分的に確定していくことで逐次的に結果を出力する仮説早期確定手法などが提案されてきた.我々は音声システムにおけるさらに高速,低遅延な応答速度の実現を目指し,これまでに,孤立単語認識を対象として仮説ネットワーク(木構造化辞書)の構造および認識処理中のフレームどとの状態尤度を用いて,入力の途中で探索を打ち切り発話終了よりも前に仮説を確定する手法を提案してきた.本稿では,この手法を連続単語認識へと拡張した手法を提案する.評価実験では,14単語の小規模な連続発声タスクにおいて,各単語の発話終了よりも平均的0.053 秒前に,認識精度を劣化させることなく各仮説の確定ができた.8738 単語の駅名の連続発声タスクにおいては,各単語の発話終了から平均約 0.48 秒の遅延で,各仮説の確定ができた.また,音響モデルの規模による比較を行った結果も報告する.%Minimizing response delay of speech recognition system and giving rapid feed backs are important properties for an intuitive, easy-to-use speech interfaces. Many studies has been conducted to improve the response delay, such as making progressive outputs while recognition process "after" the words are half-determined in the context. In order to achieve higher speed input responses, we have proposed an algorithm to determine the most likely hypothesis "before" the utterance ends. The method has been examined for isolated word recognition, and this paper extends it for continuous word recognition. Experimental evaluations were performed for tasks of various vocabulary size. The result at a small vocabulary task with 14 words has shown that our proposed algorithm can determine each word for about 0.053 second prior to the actual end of speech on average, without any degradation of recognition accuracy. Another result on a station names recognition task with vocabulary size of 8738 has shown that our proposed algorithm can determine each word for about 0.48 second on average after the actual end of speech. The comparison results on various acoustic models are also reported.
机译:在语音识别系统中,对用户的输入发声的响应的延迟是作为输入接口的重要问题。作为减少延迟并向用户提供早期反馈的方法,已经提出了一种假设早期确认方法,该方法通过部分确认假设来顺序输出结果。我们的目标是在语音系统中实现更快和更低延迟的响应速度,到目前为止,假设网络(树结构字典)的结构和识别处理过程中帧的状态似然性已成为孤立词识别的目标。我们提出了一种在输入中间取消搜索并在话语结束前固定假设的方法。在本文中,我们提出了一种将这种方法扩展到连续单词识别的方法。在评估实验中,每个假设可以在一个连续的14个单词的发声小任务中得到确认,而不会降低识别准确度,平均每个单词发声之前的0.053秒。在8738个单词站名称的连续发音任务中,可以从每个单词的发音结束起平均延迟约0.48秒来确认每个假设。此外,我们还根据声学模型的规模报告了声学模型的比较结果。 %最小化语音识别系统的响应延迟并提供快速反馈是直观,易于使用的语音界面的重要属性。已进行了许多研究来改善响应延迟,例如在识别过程“之后”进行渐进式输出。在上下文中,单词是半确定的。为了获得更高的输入响应速度,我们提出了一种算法,用于在发音结束之前“确定”最有可能的假设。对不同词汇量的任务进行了实验评估。一个14个单词的小词汇任务的结果表明,我们提出的算法可以在实际语音结束前大约0.053秒内确定每个单词。词汇量为8738的电台名称识别任务的另一个结果是平均值很小,而识别精度没有任何下降。由于我们提出的算法可以在实际语音结束后平均每个单词约0.48秒确定每个单词。还报告了各种声学模型的比较结果。

著录项

  • 来源
    《電子情報通信学会技術研究報告》 |2010年第356期|p.77-82|共6页
  • 作者单位

    名古屋工業大学大学院工学研究科創成シミュレーション工学専攻 〒466-8555 愛知県名古屋市昭和区御器所町;

    名古屋工業大学大学院工学研究科創成シミュレーション工学専攻 〒466-8555 愛知県名古屋市昭和区御器所町,株式会社日立ソリューションズ;

    名古屋工業大学大学院工学研究科創成シミュレーション工学専攻 〒466-8555 愛知県名古屋市昭和区御器所町;

    名古屋工業大学大学院工学研究科創成シミュレーション工学専攻 〒466-8555 愛知県名古屋市昭和区御器所町;

    名古屋工業大学大学院工学研究科創成シミュレーション工学専攻 〒466-8555 愛知県名古屋市昭和区御器所町;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 jpn
  • 中图分类
  • 关键词

    音声認識; 探索アルゴリズム; 早期確定; 木橋造化辞書; 信頼度;

    机译:语音识别;搜索算法;早期决策;Kihashi词典;可靠性;
  • 入库时间 2022-08-18 00:34:33

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号