首页> 外文期刊>電子情報通信学会技術研究報告 >発話内分散に基づき動的に生成された話者空間による話者クラスタリング
【24h】

発話内分散に基づき動的に生成された話者空間による話者クラスタリング

机译:基于话语内方差动态生成的基于说话人空间的说话人聚类

获取原文
获取原文并翻译 | 示例
       

摘要

Speech has two types of information, such as phoneme and speaker. If these information are separated, robust speaker clustering can be achieved. It is necessary to suppress the phonetic information for each utterance because variance of utterance duration is large in multi-party conversation. We propose a speaker clustering method using Gaussian mixture model in flexibly selected speaker subspace based on variance of intra-utterance. We carried out speaker clustering experiments compared with conventional methods based on Bayesian information criterion and Gaussian mixture model in an observation space. The experimental results showed that the proposed method can achieve higher clustering accuracy than conventional methods.%音声データには音韻性と話者性が含まれており,音韻性を抑制することでより頑健な話者クラスタリングが可能になると考えられる.また,多人数会話では発話の時間長のばらつきが大きいため,発話毎に音韻性を抑制する必要があると考えられる.そこで,本研究では主成分分析による空間分離手法を用いて発話ごとに音韻性と話者性の分離を行い,さらに,発話内分散に応じて最適な話者空間の次元数を設定することで,音韻性を抑制した話者空間を構築する手法を提案する.従来のBIC を用いた手法とGMM を用いたCLR による話者クラスタリング手法との比較実験を行った結果,提案手法が最も高いクラスタリング精度を実現した.
机译:语音具有音素和说话人这两种信息,如果将这些信息分开,则可以实现鲁棒的说话人聚类。由于多方通话中说话持续时间的差异较大,因此有必要抑制每种说话的语音信息。基于说话人内在差异,提出了一种基于高斯混合模型在说话人子空间中灵活选择的说话人聚类方法,并在观察空间中与基于贝叶斯信息准则和高斯混合模型的传统方法进行了说话人聚类实验。语音数据包含语音和说话者特征,并且抑制语音特征可以使说话者聚类更加可靠。 。此外,在多人交谈中,由于发声时间变化很大,因此认为有必要抑制每种发声的语音特性。因此,在这项研究中,通过使用基于主成分分析的空间分离方法,针对每种话语分离了语音和说话者特征。我们提出了一种构建具有抑制音素的扬声器空间的方法。通过使用BIC的常规方法与使用GMM的CLR的说话人聚类方法进行比较实验的结果,提出的方法实现了最高的聚类精度。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号