首页> 外文会议>情報処理学会;情報処理学会全国大会 >Listen and Tell: 深層学習を用いた音響シーンのキャプション生成
【24h】

Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

机译:听和讲:使用深度学习生成声音场景的字幕

获取原文

摘要

本研究では,深層学習を用いて音響信号からその内容を説明するキャプションを生成する手法を提案した.画像でのキャプション生成モデルを音響信号でのモデルに適用するために,音響信号に対するスペクトログラム表現と,複数のスペクトログラムを用いた可変長音響信号に対する固定長ベクトル表現を導入することによってモデルを拡張した.提案モデルを混合音とキャプションのデータセットで学習させた結果,完全に一致したキャプションが生成される割合は71.6%となり,また,音源の順序が表現できていることが分かった.
机译:在本研究中,从使用深度学习的声学信号 我们提出了一种生成解释内容的标题的方法。 用于声信号的光谱频谱信号,用于将图像中的标题生成模型应用于具有声信号的模型 使用RAM表示和多谱图的变化长度 引入声学信号的固定长度矢量表示 该模型延长了。混合声音和录音 由于在选项的数据集中学习, 所产生的标题的速度为71.6%, 此外,发现可以表达声源的顺序。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号