Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

机译：听和讲：使用深度学习生成声音场景的字幕

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

本研究では，深層学習を用いて音響信号からその内容を説明するキャプションを生成する手法を提案した．画像でのキャプション生成モデルを音響信号でのモデルに適用するために，音響信号に対するスペクトログラム表現と，複数のスペクトログラムを用いた可変長音響信号に対する固定長ベクトル表現を導入することによってモデルを拡張した．提案モデルを混合音とキャプションのデータセットで学習させた結果，完全に一致したキャプションが生成される割合は71.6%となり，また，音源の順序が表現できていることが分かった．

机译：在本研究中，从使用深度学习的声学信号我们提出了一种生成解释内容的标题的方法。用于声信号的光谱频谱信号，用于将图像中的标题生成模型应用于具有声信号的模型使用RAM表示和多谱图的变化长度引入声学信号的固定长度矢量表示该模型延长了。混合声音和录音由于在选项的数据集中学习，所产生的标题的速度为71.6％，此外，发现可以表达声源的顺序。

著录项

来源
《情報処理学会;情報処理学会全国大会》|2019年|2.407-2.408|共2页
会议地点
作者
岩月道生; 周藤唯; 糸山克寿; 西田健次; 中臺一博;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
入库时间 2022-08-26 13:50:04

相似文献

外文文献
中文文献
专利

1. 溶融金属中に発生する音響キャビテーションの測定－アコースティックエミッションを用いた音響キャビテーションの測定 [J] . 松永格, 篠崎賢二, 吉田誠超音波Techno . 2007,第2期

机译：熔融金属中产生的声空化的测量-使用声发射的声空化的测量
2. 溶融金属中に発生する音響キャビテーションの測定－アコースティックエミッションを用いた音響キャビテーションの測定 [J] . 松永格, 篠崎賢二, 吉田誠超音波Techno . 2007,第2期

机译：使用声发射的声空化的测量 - 即发生在熔融金属声空化的测量
3. ロケットエンジン用ターボポンプの入口配管の音響効果を考慮したキャビテーションサージの一次元解析: 第2報，キャビテーション非定常特性の位相遅れ/進み及びPSDの影響 [J] . 南里　秀明, rn谷　直樹, rn河南　広紀, 日本機械学会論文集 . 2010,第771期

机译：考虑火箭发动机涡轮泵进气管声学效应的气蚀喘振一维分析：第二份报告，相延迟/气蚀非定常特性和PSD效应提前
4. Listen and Tell: 深層学習を用いた音響シーンのキャプション生成 [C] . 岩月道生, 周藤唯, 糸山克寿, 情報処理学会全国大会 . 2019

机译：倾听并告诉：使用深度学习的声学场景的标题生成
5. パーソナリティ分析を用いた自己調整学習における目標設定を補助するアプリケーションの検証 [D] . 坪井宏樹 2019

机译：使用性格分析验证有助于自我调整学习中设定目标的应用程序
6. 連結階層モデルによって見えてきたプラズマシミュレーションの新たな局面２．プラズマにおける連結階層シミュレーション２．２磁気リコネクション研究をめざした多階層シミュレーションモデルの開発 [O] . 宇佐見俊介, 大谷寛明, 堀内利得, 2009

机译：连接的层次模型1显示了等离子体模拟的一个新方面。等离子体中的耦合分层模拟2.2面向磁重联研究的多层模拟模型的开发

Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

摘要

著录项

相似文献

相关主题

期刊订阅