首页> 外文期刊>NHK技研 R&D >対談音声認識のための話者ダイアライゼーション
【24h】

対談音声認識のための話者ダイアライゼーション

机译:对话者语音识别的说话人辩识

获取原文
           

摘要

話者ダイアライゼーションとは,音声から「いつ,誰が発話したのか」を推定する技術である。話者を推定することができれば,話者適応化技術により音声認識率の改善が期待できる。本稿では,対談番組のような連続した音声に複数の話者が含まれる状況において,話者交代点を検出しつつ低遅延で話者を判定する手法を提案する。提案手法では,音素情報に基づいて音声区間を分類したマルチ音素クラスのベイズ情報量基準を用いることで,話者ダイアライゼーションの精度の向上を図った。報道系情報番組の対談部分を対象とした話者ダイアライゼーション実験を行った結果,遅れ時間2秒で話者判定するタスクにおいて,話者ダイアライゼーション誤りを従来手法に比べて20.0%削減することができた。この提案手法による話者判定結果を利用した音声認識の話者適応実験では,話者交代点前後の発話に関して7.8%の単語誤り削減率を得た。
机译:扬声器拨号是一种从语音中估计“何时和谁说话”的技术。如果可以估计说话者,则可以期望说话者自适应技术提高语音识别率。在本文中,我们提出了一种在对话程序等连续语音中包含多个说话者的情况下,在检测说话者变化点的同时,确定低延迟说话者的方法。在所提出的方法中,通过使用基于声音元素信息对语音部分进行分类的多电话元素类别的贝叶斯信息量标准,提高了说话者透析的准确性。作为针对新闻信息节目的对话部分进行说话者拨号实验的结果,在确定说话者的任务中,可以将说话者拨号错误减少20.0%,延迟时间为2秒。做到了。在使用该建议方法的说话人判断结果进行语音识别的说话人自适应实验中,在说话人改变点之前和之后的语音的单词错误减少率达到7.8%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号