首页> 外文会议>日本音響学会;日本音響学会研究発表会 >話者クラスタリングに基づく話者年齢・性別推定精度改善法
【24h】

話者クラスタリングに基づく話者年齢・性別推定精度改善法

机译:基于说话人聚类的说话人年龄/性别估计准确性提高方法

获取原文

摘要

発話者の年齢と性別を音声からend-to-end で推定するニューラルネットワークを提案する.さらに各発話に対し,i-vector に基づく話者クラスタリングを適用し,得られた話者クラスタごとに年齢性別クラス分類結果を統合することで,各発話の年齢性別クラス分類精度を改善できることを示す.発話者の年齢や性別などの話者情報を音声信号から推定する技術が,音声インタフェースのパーソナライズ化やコールセンターにおける迅速な意思決定のために求められている.音声から年齢性別を推定するための手法として,Time delay neural network(TDNN) により年齢を推定する手法が提案されている.TDNN は音響特徴量から直接年齢を推定するend-to-end なモデルで,従来の複数の特徴量を用いる手法と同程度の高い性能が得られることが示されている.一方で,TDNN の構築には多くの学習データが必要で,学習データが少ないと特定の話者に過学習してしまうという問題があった.この問題を解決するためには,年齢や性別情報が付与された大量の学習データが必要となるが,これらメタデータが利用可能な音声コーパスは少なく,また,メタデータが付与されたコーパスにおいても収録話者の年齢の分布に偏りが大きいという問題があった.
机译:估计扬声器的年龄和性别,从音频结束 我们提出了一个神经网络此外 与故事交谈,如何基于I-vector群集 每个扬声器群集的年龄课程的课程 通过整合分类结果,每个语音年龄级 表示可以提高排序精度。 发言者信息的语音信号,如发言者年龄和性别 估计技术,语音界面的角色 Idihydration和呼叫中心的快速决策 它是必需的估计讲话年龄 时间延迟神经网络作为一种方法 提出了通过(TDNN)来估计年龄的方法 。 TDNN直接从声学特征估计年龄 在端到端模型中使用多个常规功能 结果表明,与方法相同的性能 ing。另一方面,许多学习日建立TDNN 如果有一些学习数据,具体扬声器 我学到了一个问题。解决这个问题 为了做到,给出了大量的年龄和性别信息 需要学习数据,但这些元数据是 有更少的音频语料库和元数据 即使在授予的语料库中,录音机的年龄 偏差在布料中有很大的问题。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号