首页> 外文期刊>情報処理学会論文誌 >音声スタータ:有声休止による発話開始の指定が可能な音声入力インタフェース
【24h】

音声スタータ:有声休止による発話開始の指定が可能な音声入力インタフェース

机译:语音启动器:语音输入界面,可让您通过浊音暂停指定语音开始

获取原文
获取原文并翻译 | 示例
           

摘要

本論文では,ユーザが有声休止(母音の引き延ばし)によって言い淀んだ後に音声入力することで,雑音環境下での発話区間検出を容易にする「音声スタータ」という音声インタフェース機能を提案する.通常の音声認識システムでは,入力音響信号から発話区間を検出した後に,その区間に対して音声認識結果を得る.しかし非定常な雑音環境下では,頑健に発話区間を検出することが困難なため,音声認識誤りを生じることが多かった.音声スタータでは,ユーザが「えー」や「あのー」のように有声休止を発話の先頭(発話区間の始端)で故意に発声することで,システムに音声認識してほしい発話を明示的に指定することを可能にする.有声休止はパワーの大きい母音が持続することから,雑音環境下でも頑健に検出でき,発話区間検出の精度を向上させることができる.さらに,音声スタータではマイク以外のデバイスが不安でハンズフリーな音声認識を実現でき,日常会話でも言い淀んでから話し始めることがよくあるためにユーザの負担も少ないという利点がある.実際に7種類の雑音環境下で音声認識実験をしたところ,特にSNR 10dBにおいて従来の他の発話区間検出手法を用いた場合よりも,音声スタータを用いた場合の方が検出性能が高かった.
机译:在本文中,我们提出了一种称为“语音启动器”的语音接口功能,该功能可通过用户在浊音暂停(扩展元音)后输入语音来促进在嘈杂环境中的语音片段检测。在普通的语音识别系统中,在从输入的声音信号中检测出发声部分之后,就获得了该部分的语音识别结果。然而,在非平稳噪声环境中,难以稳健地检测发声区间,因此经常出现语音识别错误。在语音启动器中,用户有意在诸如“ er”和“ anor”之类的发声的开头(发声部分的开头)发声,以明确指定系统应识别的发声。使成为可能。由于浊音停顿继续具有高功率的元音,因此即使在嘈杂的环境中也可以可靠地检测出它们,并且可以提高语音段检测的准确性。此外,语音启动器的优势在于,除麦克风外的其他设备还可以实现免提语音识别,并且经常在日常对话中停滞后开始通话,从而减轻了用户的负担。当在7种噪声环境中实际执行语音识别实验时,使用语音启动器时的检测性能要比使用其他常规语音间隔检测方法时的检测性能更高,尤其是在10 dB的SNR时。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号