首页> 外文期刊>電子情報通信学会論文誌, D. 情報·システム >マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション
【24h】

マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション

机译:基于多音素级贝叶斯信息标准的在线扬声器用语

获取原文
获取原文并翻译 | 示例
           

摘要

本論文では,対談音声認識のための,音素情報を利用したベイズ情報量基準に基づくオンライン話者ダイアライゼーション手法について述べる.従来のオンライン話者ダイアライゼーションは,対談音声から切り出される一つの音声区間内に多く発生する話者交替点を想定していないものや,話者判定結果をリアルタイム音声認識の話者適応に利用するには,話者判定の遅れ時間が大きく不向きなものが多い.提案手法では,ベイズ情報量基準により,複数話者が連続して発話する音声区間内の話者交替点を逐次検出しながら,オンライン性を考慮した判定手法で話者ダイアライゼーションを行う.また,音素認識から得られる音素情報に基づいて特徴量を分類した,「マルチ音素クラス」モデルを用いることで,特に短い遅れ時間での話者ダイアライゼーション精度の向上を図る.報道系情報番組の対談部分を対象とした話者ダイアライゼーション実験を行った結果,遅れ時間2秒の話者判定において,提案手法により,従来の単一音素クラスの全音素モデルに比べて話者ダイアライゼーション誤りが20.0%削減することを確認した.話者判定結果を利用した音声認識のオンライン話者適応実験では,話者交替点前後の発話に関して7.8%の単語誤り削減率を得た.
机译:在本文中,我们使用语音识别的音素信息描述了基于贝叶斯信息标准的在线扬声器宣传法典。传统的在线扬声器拨号位于一个语音部分,从谈话语音中删除,以便在扬声器的适应中使用扬声器判断实时语音识别,有很多东西预计不会成为扬声器判断的扬声器适应实时语音识别。在贝叶斯信息量标准的情况下,顺序检测扬声器交换点扬声器连续讲话的语音部分,扬声器二进制在考虑内线的判断方法中进行。此外,通过使用“多音素类”模型来识别,该模型基于获得的音素信息分类特征量从,它旨在在短暂延迟时间提高扬声器二胺化精度。由于进行泄漏的拨号实验而定位面试部件,在两秒延迟时间的扬声器判断中,该方法减少了扬声器判断误差通过20.0%与传统单个音素类的总音素模型相比,使用扬声器判断结果对语音识别的在线扬声器适应实验给出了扬声器替换点之前和之后的演讲7.8%的错误减少率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号