首页> 外文会议>電子情報通信学会総合大会 >重畳音声分離に向けた聴覚脳神経学の知見に基づくラダー型ニューラルネットワークの設計
【24h】

重畳音声分離に向けた聴覚脳神経学の知見に基づくラダー型ニューラルネットワークの設計

机译:基于叠加语言分离的听觉脑神经内科知识的梯形神经网络设计

获取原文

摘要

重畳した複数話者の音声から所望の音声を抽出する音源分離と再 構成は,議事自動生成等への応用が期待される.従来の重畳音声ス ペクトル比を教師データとする方式では,所望音声の分離後再構成 音の信号対ひずみ比(SDR)で後段の音声認識等で必要とする10dB を満たせない. それに対して,霊長類や哺乳類には本来,同時に発声する外部の 音源を聴覚脳神経系で聞き分ける能力がある.この能力は,聴覚音 声特徴量と時間同期性とに依存していることが知られている[1].聴 覚音声特徴量とは,外界音声を聴覚システムが分析して得る特徴量 を指し,時間同期性とは,多数の聴覚音声特徴量時間系列の発生開 始時間および終了時間が類似の時間点に収束している状態をいう. 聴覚は複数の外界音源の時間同期性が互いに異なることを利用し, 時間同期性を有する聴覚音声特徴量群を同一音源としてグルーピン グすることにより,異なる同期性の特徴量群を別音源として分離す る.本稿では,これを時間同期性検知クラスタリングと呼ぶ.
机译:预计从叠加多个扬声器的声音提取所需音频的声源分离和重建将应用于自动生成等。在使用传统叠加语音Pectr比例作为教师数据的方法中,在分离所需语音之后,通过语音识别等不满足预算声音的语音识别(SDR)所需的10dB。另一方面,灵长类动物和哺乳动物具有听到外部声音源,其与听觉脑神经系统同时同时讲话。已知这种能力取决于听觉语音特性和时间同步[1]。听觉语音特征数量是指听觉系统通过听觉系统分析的特征量,时间同步是具有大量听觉特征时间序列的时间点开始时间和结束时间。据说它收敛到。听力使用多个外部声源的不同时间同步来分离不同的同步特征量作为单独的声音源,通过将不同的交互式听觉特征组分组,时间同步作为相同的声源。做。在本文中,这称为时间同步检测聚类。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号