首页> 外文期刊>電子情報通信学会技術研究報告 >長時間分析に基づく位相情報を用いた音声認識の検討
【24h】

長時間分析に基づく位相情報を用いた音声認識の検討

机译:基于长期分析的基于相位信息的语音识别研究

获取原文
获取原文并翻译 | 示例
       

摘要

Current speech recognition systems use mainly amplitude spectrum-based features such as MFFC for acoustic feature parameters, while discarding phase spectral information. The results of perceptual experiments, however, suggested that phase spectral information based on long-term analysis includes certain linguistic information. In this paper, we propose the use of phase features based on long-term analysis for speech recognition. We use two types of parameters: the delta phase parameter as a group delay and analytic group delay features. Isolated word and continuous digit recognition experiments were performed, resulting in a greater than 90% word or digit accuracy for each of the experiments. The experimental results confirmed that a long-term phase spectrum includes sufficient information for recognizing speech. Furthermore, combining likelihoods of MFCC and long-term group delay cepstrum outperformed the baseline MFCC by relatively 20% for clean speech.%現在の音声認識システムでは,音声特徴量としてMFCC等の振幅スペクトルベースの特徴量が用いられており,一方で位相情報は無視されている.しかし,Liuらの行った聴覚実験の結果では,長時間分析に基づく位相スペクトルには言語的な情報が含まれていることが示唆されている.そこで,本稿では長時間分析に基づく位相特徴量を用いて音声認識を行う手法を提案する.我々は,位相特徴量として群遅延特徴を用いるが,本稿では2種類の求め方について検討する.1つば,位相スペクトル領域における周波数軸方向の傾きとして求めた群遅延特徴量,もう1つは解析的手法により求めた群遅延特徴量である.孤立単語認識実験と連続数字認識実験により評価を行い.それぞれで90%以上の単語・数字正解精度を得た.これにより,位相特徴に音声認識能力があることが確かめられた.また,尤度レベルでMFCC特徴量との結合を行うことで,連続数字音声認識において,クリーン音声に対して20%以上の誤り削減率を得た.
机译:当前的语音识别系统主要使用基于幅度频谱的特征(例如MFFC)作为声学特征参数,同时丢弃相位频谱信息。然而,感知实验的结果表明,基于长期分析的相位谱信息包括某些语言信息。在本文中,我们建议使用基于长期分析的相位特征进行语音识别。我们使用两种类型的参数:增量相位参数作为群延迟和解析群延迟特征。进行了隔离的单词和连续数字识别实验,结果每个实验的单词或数字准确度均高于90%。实验结果证实,长期相位谱包含足以识别语音的信息。此外,结合MFCC的可能性和长期的群延迟倒频谱,干净语音的表现比基线MFCC高出20%。%现在の音声认识システムでは,音声特徴量としてMFCC等の振幅スペクトルベースの特徴量が用いられてしかし,一方で位相情报は无视されている。しかし,Liuらの行った聴覚実験の结果では,连续分析に基づく位相ペストクにはルには言语的な情报が含まれていることが示唆されている。我々は,位相特では量として群遅延特徴を用いする,本稿では2种の求め方について検讨する.1単,位相スペクトル领域における周波数轴方向の倾きとして求めた群遅延特徴量,もう1つは解析的手法により求めた群遅延特徴量である。これにより90%以上の単语・数字正解精度を得た。これにより,位相特徴に音声认识能力があることが确かめられた。また,尤度レベルでMFCC特徴量との结合を行うことで,连続数字音声认识において,クリーン音声に対して20%以上の误り削减率を得た。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号