首页> 中文学位 >深度学习在音乐自动标注中的应用
【6h】

深度学习在音乐自动标注中的应用

代理获取

目录

声明

致谢

摘要

缩略词表

1.1.1 音乐标注基本概念

1.1.2 深度学习

1.2 国内外研究现状

1.2.1 传统的音乐标注方式

1.2.2 音频特征提取

1.2.3 深度学习在音乐领域的应用

1.2.4 深度学习在音乐标注领域的应用

1.3 本文重点研究内容

1.4 论文结构安排

2.1 音频信号特征表达

2.1.1 梅尔倒谱系数

2.1.2 频谱图

2.2 深度学习

2.2.1 卷积神经网络

2.2.2 优化方法

2.2.3 正则化

2.3 本章小结

3.模型结构设计和平台搭建

3.1 数据集

3.2 问题描述

3.3 模型设计思路

3.3.1 输入信号

3.3.2 卷积层窗口和轴

3.3.3 池化层的大小和轴

3.3.4 损失函数定义

3.4 模型结构

3.4.1 梅尔频谱系数模型

3.4.2 频谱图模型

3.4.3 原始音频模型

3.5:深度学习平台搭建

3.5.1 深度学习平台

3.5.2 软件安装

3.5.3 硬件

3.6 本章小结

4.实验结果和讨论

4.1 模型训练以及收敛的细节

4.1.1 不同训练速率对于训练收敛过程的影响

4.1.2 不同梯度下降方法对于训练速度的影响

4.2 模型表现的对比

4.2.1 不同模型的对比

4.2.2 与相关工作的对比

4.3 不同深度的模型在MSD上的表现

4.4 本章小结

5 卷积神经网络可视化

5.1 模型可视化的思路

5.2 卷积神经网络可视化的一般模型结构

5.3 可视化模型的损失函数定义

5.4 可视化模型的训练方式

5.5 梅尔频谱图模型的可视化效果

6 结论和展望

参考文献

作者简历及攻读硕士/博士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

在音乐标注领域,传统标注模型总是遵循一种固定的方式:从一组注释的歌曲出发,这组歌曲由音频的特征向量来表示,由此学习一系列对应不同标注的模型来进行预测。这种方式存在很大冗余;另一方面,大规模数据集的出现为模型设计带来了新的思路。因此,本文从近年兴起的深度学习入手,结合大规模的训练数据,探索更加简洁和准确的标注手段。
  具体来说,本文首先基于自动音乐标记研究的典型数据集:Magnatagatune数据集,对应不同的特征输入(梅尔频谱图、频谱图、梅尔频谱系数、原始音频)设计了3种不同结构的卷积神经网络模型,对比了它们在同一数据集(Magnatagatune数据集)上的效果,发现梅尔频谱图、原始音频比频谱图以及梅尔频谱系数等特征在音频自动标记上有明显优势。然后我们设计了可视化模型来观察训练好的模型参数中不同层的卷积核对怎样的输入有最强的响应,并且可视化了这些响应。同时我们设计了不同深度的深度学习网络,在更大的数据集MSD(Million Song Dataset)的带标记的子数据集(last.fm)上进行了试验,发现在更大的数据集上,层数更深的模型明显优于浅的模型,该结果与计算机视觉领域的最新研究成果相吻合。同时,通过对比相同模型在不同数据集上的表现,我们能清晰地看到数据集大小的提升对于不同深度模型效果的重要影响。
  本文的贡献主要包括:
  (1)设计了多种结构的音乐自动标记的深度学习模型,在Magnatagatune数据集上对比了不同音频的中低层特征作为模型输入的效果,发现梅尔频谱图模型、原始音频模型的效果明显优于频谱图模型、梅尔频谱系数模型。同时,我们设计的原始音频模型在该数据集上取得了优于先前工作的AUC(Area Under Curve)。
  (2)在更大的数据集MSD上对比了不同深度的模型的效果,发现深度更深的模型在更大的数据集上明显表现出优势,同时也启发我们数据集的大小对于发掘深度学习模型实际效果和潜力的重要影响。
  (3)可视化已训练好的模型,发现在梅尔频谱图模型中更高的卷积层中的卷积核对于频率的响应在一定程度上吻合了人耳听觉系统音阶响应的分布。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号