首页> 外文期刊>電子情報通信学会技術研究報告 >音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別
【24h】

音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別

机译:集成语音段估计和时频域方向估计的会议发言人识别

获取原文
获取原文并翻译 | 示例
       

摘要

This paper presents a meeting diarization system that estimates who spoke when in a meeting. Our proposed system is realized by using a noise robust voice activity detector (VAD), a direction of arrival (DOA) estimator, and a DOA classifier. This paper proposes two methods for improving diarization performance. As the first proposal, we employ a DOA at each time-frequency slot (TFDOA) so that multiple DOAs can be estimated at a frame when multiple speakers speak simultaneously. The second proposal is to integrate VAD and DOA in a probabilistic way. This paper reports how such proposals improve diarization performance for real meetings /rnconversations.%我々は、会議状況において「いつ誰が話したか」を推定する方法を検討している。これは、音声区間検出器(VAD)で推定した音声存在確率と、吉声区間における音声到来方向(DOA)の分類結果とを用いて、会議音声中の各話者の音声区間を推定するものである。これを本稿では話者識別と呼ぶ。本稿では、この性能向上を目的とし、2つの方法を提案する。提案1として、DOAを各時間周波数スロットで推定することで、特に複数人同時発話時の話者識別精度を向上させる。提案2として、VAD結果およびDOA情報を確率的に統合する方法を検討する。両提案法により、実際の会話音声データに対して、話者識別性能の向上が見られたので報告する。
机译:本文提出了一种会议估计系统,该系统可以估计在会议中谁讲话。我们提出的系统是通过使用抗噪语音活动检测器(VAD),到达方向(DOA)估计器和DOA分类器来实现的。两种提高数字化性能的方法:第一种建议是在每个时频时隙(TFDOA)上使用DOA,以便当多个说话者同时讲话时可以在一个帧中估计多个DOA。第二种建议是将VAD和DOA集成在一起本文以概率的方式报告了此类提议如何提高真实会议/ rnarversation的区分性能。%我们正在研究估算会议情况下“何时和谁讲话”的方法。这是通过使用由语音区间检测器(VAD)估计的语音存在概率和良好语音区间中的语音到达方向(DOA)的分类结果来估计会议语音中每个讲话者的语音区间。是的。在本文中,这称为说话人识别。在本文中,我们提出了两种方法来改善此性能。作为建议1,在每个时隙上估计DOA以提高说话人识别的准确性,尤其是当多个人同时讲话时。作为提案2,我们考虑一种概率集成VAD结果和DOA信息的方法。我们报告这两种建议的方法提高了实际语音数据的说话人识别性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号