...
首页> 外文期刊>情報処理学会論文誌 >音声スポッタ:人間同士の会話中に音声認識が利用可能な音声入力インタフェース
【24h】

音声スポッタ:人間同士の会話中に音声認識が利用可能な音声入力インタフェース

机译:语音识别器:语音输入界面,可在人与人之间的对话中识别语音

获取原文
获取原文并翻译 | 示例

摘要

本論文では,人間同士の会話中に音声認識システムヘ音声コマンドを入力できる「音声スポッタ」という音声インタフェース機能を提案する.従来,会話中のユーザの音声が,音声認識システムと会話相手の人のどちらに対する発話かを,マイク入力による音声だけから識別することは困難だったため,人間同士の会話中に音声認識システムは利用されていなかった.音声スポッタでは,音声に含まれる非言語情報の中から,有声休止(「えー」のように母音の引き延ばし)による言い淀みと,声の高さの2種類を活用することで,各発話が音声認識システムに入力されるかどうかを,ユーザが意図的に制御できるようにする.具体的には,母音を延ばして言い淀んだ後に故意に高い声で発声された特殊な(不自然な)発話だけを音声認識対象と見なし,通常の会話中の発話は無視することで会話の支援を実現する.その応用例として我々は,会話中のユーザに各種情報支援をする「オンデマンド会話支援システム」と,電話での通話中にユーザがBGMを選曲・再生できる「BGM付き電話システム」の2つを構築した.音声スポッタによる発話の検出性能の評価結果やこれらのシステムの試用を通じて 本機能が頑健で便利であることを確認した.
机译:在本文中,我们提出了一种语音接口功能,称为“语音识别器”,该功能可以在人与人之间的对话过程中将语音命令输入到语音识别系统中。过去,仅通过麦克风输入的语音就很难识别用户在对话中的语音是语音识别系统的语音还是对话另一端的人的语音,因此在人与人之间的对话中使用了语音识别系统。没有完成。在语音观察器中,通过使用语音中包含的两种非语言信息来说出每种话语:浊音停顿(像“ er”的元音延长)和音调停滞。允许用户有意控制是否对识别系统进行输入。具体地,仅将在延伸元音和停滞之后有意地以高语音发声的特殊(非自然)发声视为语音识别目标,并且忽略正常会话期间的发声,从而实现支持。作为其应用的示例,我们有两个系统,一个是“按需对话支持系统”,它在对话过程中为用户提供各种信息支持;另一个是“带有BGM的电话系统”,它使用户可以在电话通话中选择并播放BGM。它被建造了。通过语音点样器对语音检测性能的评估结果以及这些系统的试用,我们确认该功能强大且方便。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号