...
首页> 外文期刊>電子情報通信学会論文誌, D. 情報·システム >マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション
【24h】

マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション

机译:基于多音类贝叶斯信息量标准的在线说话者拨号

获取原文
获取原文并翻译 | 示例
           

摘要

本論文では,対談音声認識のための,音素情報を利用したベイズ情報量基準に基づくオンライン話者ダイアライゼーション手法について述べる.従来のオンライン話者ダイアライゼーションは,対談音声から切り出される一つの音声区間内に多く発生する話者交替点を想定していないものや,話者判定結果をリアルタイム音声認識の話者適応に利用するには,話者判定の遅れ時間が大きく不向きなものが多い.提案手法では,ベイズ情報量基準により,複数話者が連続して発話する音声区間内の話者交替点を逐次検出しながら,オンライン性を考慮した判定手法で話者ダイアライゼーションを行う.また,音素認識から得られる音素情報に基づいて特徴量を分類した,「マルチ音素クラス」モデルを用いることで,特に短い遅れ時間での話者ダイアライゼーション精度の向上を図る.報道系情報番組の対談部分を対象とした話者ダイアライゼーション実験を行った結果,遅れ時間2秒の話者判定において,提案手法により,従来の単一音素クラスの全音素モデルに比べて話者ダイアライゼーション誤りが20.0%削減することを確認した.話者判定結果を利用した音声認識のオンライン話者適応実験では,話者交替点前後の発話に関して7.8%の単語誤り削減率を得た.
机译:在本文中,我们描述了一种基于贝叶斯信息量标准的,使用语音信息进行对话语音识别的在线说话者拨号方法,传统的在线说话者拨号方法是在从对话语音中切出的一个语音区域内。在许多情况下,没有假定频繁发生的说话者改变点,并且为了将说话者判断结果用于实时语音识别的说话者自适应,说话者判断的延迟时间大并且不合适。然后,基于贝叶斯信息量标准,通过考虑在线性的判断方法,在依次检测多个讲话者连续讲话的语音区间中的讲话者交替点的同时,进行讲话者辩识,并进行语音识别。通过使用“多音素类别”模型,根据从中获得的语​​音信息对功能进行分类,我们旨在提高说话者透析的准确性,尤其是在较短的延迟时间内。说话者拨号实验的结果是,与传统的单电话类全音模型相比,通过本发明的方法在说话者判断中将说话者拨号错误减少了20.0%,延迟时间为2秒。在使用说话者判断结果进行语音识别的在线说话者适应实验中,在说话者交替点之前和之后,语音的单词错误减少率达到7.8%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号