複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討

西亀　健太; 渡部　晋治; 西本　卓也; 小野　順貴; 嵯峨山茂樹

首页> 外文期刊>電子情報通信学会技術研究報告 >複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討

【24h】

複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討

机译：单模式学习中具有多重混响特性的语音在未知混响环境中鲁棒语音识别的研究

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

残響環境下では音声認識性能は著しく著しく劣化する．これに対し，人工残響インパルス応答をクリーン音声に畳み込んで学習することで，認識率が向上することが知られている．しかし，どのような残響インパルス応答を畳み込んで学習すべきか，という点に関しては十分に議論がなされていない．本研究では，人工残響インパルス応答の残響時間パラメータと認識率の関係を残響音声認識評価基盤（CENSREC-4）を用いて詳細に調べ，認識率が大きく変わる残響時間パラメータの範囲がテスト環境より短い残響時間に分布していることを述べる．また，その範囲に基づいて人工残響インパルス応答を選択しマルチコンディション学習を行うことが，未知残響環境に対して頑健な音声認識であることを示す．%In reverberant environment, speech recognition accuracy is seriously degraded. An effective method is to train acoustic models using reverberant speech which are generated from clean speech data and reverberant impulse response. It is not clear, however, what kind of impulse response is suitable for environmental variations. In this research, we show the range of reverberant time that changes speech recognition accuracy drastically through evaluation with CENSREC-4. Then we point out that the range of reverberant time which is effective for model training is shorter than that of test conditions. We also show the multi-condition training is effective for speech recognition under unknown environments using speech data of the range of reverberant time we showed.

机译：在混响环境中，语音识别性能会大大降低。另一方面，已知通过将人工混响脉冲响应卷积为干净的语音来学习人工混响脉冲响应，从而提高了识别率。但是，关于应将哪种混响脉冲响应进行卷积以进行学习的讨论不足。在这项研究中，使用混响语音识别评估平台（CENSREC-4）详细研究了人工混响脉冲响应的混响时间参数与识别率之间的关系，并且混响时间参数的范围在识别率发生较大变化的范围内比测试环境要短。描述了混响时间的分布。我们还表明，基于范围选择人工混响脉冲响应并执行多条件学习对于未知混响环境来说是鲁棒的语音识别。％在混响环境中，语音识别精度会大大降低。一种有效的方法是使用由干净语音数据和混响冲动响应生成的混响语音训练声学模型，但尚不清楚哪种冲激响应适合于本研究通过CENSREC-4的评估，揭示了回响时间的范围会极大地改变语音识别的准确性，然后指出，对模型训练有效的回响时间范围比测试条件要短。我们还展示了多条件训练对于使用我们展示的混响时间范围的语音数据在未知环境下的语音识别是有效的。

著录项

来源
《電子情報通信学会技術研究報告》 |2008年第66期|p.43-48|共6页
作者
西亀　健太; 渡部　晋治; 西本　卓也; 小野　順貴; 嵯峨山茂樹;
展开▼
作者单位

東京大学情報理工学系研究科システム情報学専攻;

〒113-8656　東京都文京区本郷7-3-1;

日本電信電話（株）NTTコミュニケーション科学基礎研究所;

〒619-0237　京都府相楽郡精華町光台2-4;

東京大学情報理工学系研究科システム情報学専攻;

〒113-8656　東京都文京区本郷7-3-1;

東京大学情報理工学系研究科システム情報学専攻;

〒113-8656　東京都文京区本郷7-3-1;

東京大学情報理工学系研究科システム情報学専攻;

〒113-8656　東京都文京区本郷7-3-1;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
残響環境; 音声認識; モデル学習; 人工残響; インパルス応答; 残響時間;

机译：混响环境;语音识别;模型学习;人工混响;脉冲响应;混响时间;
入库时间 2022-08-18 00:37:23

相似文献

外文文献
中文文献
专利

1. 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討 [J] . 西亀健太, 渡部晋治, 西本卓也, 電子情報通信学会技術研究報告. 音声. Speech . 2008,第66期

机译：在单一模型学习中使用多重混响特性下的语音在未知混响环境中的鲁棒语音识别测试
2. 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討 [J] . 西亀　健太, 渡部　晋治, 西本　卓也, 電子情報通信学会技術研究報告 . 2008,第67期

机译：单模式学习中具有多重混响特性的语音在未知混响环境中鲁棒语音识别的研究
3. 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討 [J] . 西亀健太, 渡部晋治, 西本卓也, 電子情報通信学会技術研究報告. 福祉情報工学. Welfare Information Technology . 2008,第67期

机译：在单一模型学习中使用多重混响特性下的语音在未知混响环境中的鲁棒语音识别测试
4. 実環境下における音声認識率向上のための残響除去技術の検討 [C] . 大田健紘, 柳田益造情報処理学会全国大会 . 2004

机译：检查混响去除技术以提高真实环境中的语音识别率
5. モデルベース深層強化学習におけるタスク依存の中間表現を用いた環境遷移モデルの学習利用統計を見る [D] . 水谷陽太 2019

机译：在基于模型的深度强化学习中查看使用任务相关中间表示的环境过渡模型的学习使用情况统计信息
6. 音声区間検出を用いた雑音環境下で頑健な単語音声認識に関する研究 [O] . 有冨智志 2016

机译：语音区间检测在嘈杂环境中的健壮词语音识别研究

複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討

摘要

著录项

相似文献

相关主题

期刊订阅