首页> 外文会议>日本音響学会研究発表会 >話者クラスタリングに基づく話者年齢?性別推定精度改善法
【24h】

話者クラスタリングに基づく話者年齢?性別推定精度改善法

机译:基于扬声器聚类估计准确性改进方法的演讲者年龄

获取原文

摘要

発話者の年齢と性別を音声からend-to-end で推定するニューラルネットワークを提案する.さらに各発話に対し,i-vector に基づく話者クラスタリングを適用し,得られた話者クラスタごとに年齢性別クラス分類結果を統合することで,各発話の年齢性別クラス分類精度を改善できることを示す.発話者の年齢や性別などの話者情報を音声信号から推定する技術が,音声インタフェースのパーソナライズ化やコールセンターにおける迅速な意思決定のために求められている.音声から年齢性別を推定するための手法として,Time delay neural network(TDNN) により年齢を推定する手法が提案されている.TDNN は音響特徴量から直接年齢を推定するend-to-end なモデルで,従来の複数の特徴量を用いる手法と同程度の高い性能が得られることが示されている.一方で,TDNN の構築には多くの学習データが必要で,学習データが少ないと特定の話者に過学習してしまうという問題があった.この問題を解決するためには,年齢や性別情報が付与された大量の学習データが必要となるが,これらメタデータが利用可能な音声コーパスは少なく,また,メタデータが付与されたコーパスにおいても収録話者の年齢の分布に偏りが大きいという問題があった.
机译:估计扬声器的年龄和性别,从音频结束我们提出了一个神经网络此外与故事交谈,如何基于I-vector群集每个扬声器群集的年龄课程的课程通过整合分类结果,每个语音年龄级表示可以提高排序精度。发言者信息的语音信号,如发言者年龄和性别估计技术,语音界面的角色Idihydration和呼叫中心的快速决策它是必需的估计讲话年龄时间延迟神经网络作为一种方法提出了通过(TDNN)来估计年龄的方法ns。 TDNN直接从声学特征估计年龄在端到端模型中使用多个常规功能结果表明,与方法相同的性能ing。另一方面,许多学习日建立TDNN如果有一些学习数据,具体扬声器我学到了一个问题。解决这个问题为了做到,给出了大量的年龄和性别信息需要学习数据,但这些元数据是有更少的音频语料库和元数据即使在授予的语料库中,录音机的年龄偏差在布料中有很大的问题。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号