深度学习在音乐自动标注中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在音乐标注领域，传统标注模型总是遵循一种固定的方式:从一组注释的歌曲出发，这组歌曲由音频的特征向量来表示，由此学习一系列对应不同标注的模型来进行预测。这种方式存在很大冗余;另一方面，大规模数据集的出现为模型设计带来了新的思路。因此，本文从近年兴起的深度学习入手，结合大规模的训练数据，探索更加简洁和准确的标注手段。
　　具体来说，本文首先基于自动音乐标记研究的典型数据集:Magnatagatune数据集，对应不同的特征输入（梅尔频谱图、频谱图、梅尔频谱系数、原始音频）设计了3种不同结构的卷积神经网络模型，对比了它们在同一数据集(Magnatagatune数据集)上的效果，发现梅尔频谱图、原始音频比频谱图以及梅尔频谱系数等特征在音频自动标记上有明显优势。然后我们设计了可视化模型来观察训练好的模型参数中不同层的卷积核对怎样的输入有最强的响应，并且可视化了这些响应。同时我们设计了不同深度的深度学习网络，在更大的数据集MSD(Million Song Dataset)的带标记的子数据集(last.fm)上进行了试验，发现在更大的数据集上，层数更深的模型明显优于浅的模型，该结果与计算机视觉领域的最新研究成果相吻合。同时，通过对比相同模型在不同数据集上的表现，我们能清晰地看到数据集大小的提升对于不同深度模型效果的重要影响。
　　本文的贡献主要包括:
　　(1)设计了多种结构的音乐自动标记的深度学习模型，在Magnatagatune数据集上对比了不同音频的中低层特征作为模型输入的效果，发现梅尔频谱图模型、原始音频模型的效果明显优于频谱图模型、梅尔频谱系数模型。同时，我们设计的原始音频模型在该数据集上取得了优于先前工作的AUC(Area Under Curve)。
　　(2)在更大的数据集MSD上对比了不同深度的模型的效果，发现深度更深的模型在更大的数据集上明显表现出优势，同时也启发我们数据集的大小对于发掘深度学习模型实际效果和潜力的重要影响。
　　(3)可视化已训练好的模型，发现在梅尔频谱图模型中更高的卷积层中的卷积核对于频率的响应在一定程度上吻合了人耳听觉系统音阶响应的分布。

著录项

作者
龚强;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科通信与信息系统
授予学位硕士
导师姓名郭宇春;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音信号处理;
关键词
音乐标注; 深度学习; 数据集; 卷积神经网络;

相似文献

中文文献
外文文献
专利

1. 深度学习在图像自动标注中的应用初探 [J] . 魏珺洁 . 智能计算机与应用 . 2020,第003期
2. 深度学习在图像自动标注中的应用初探 [J] . 魏珺洁 . 智能计算机与应用 . 2020,第003期
3. 基于深度学习的地址信息自动标注研究 [J] . 凌广明 ,徐爱萍 ,王伟 . 电子学报 . 2020,第011期
4. 基于深度学习的图像自动标注算法研究 [J] . 马颖 . 数字技术与应用 . 2017,第010期
5. 基于深度学习的图像自动标注算法研究 [J] . 马颖 . 数字技术与应用 . 2017,第010期
6. 基于深度学习模型的多标签图像自动标注 [C] . LI Jian-Cheng ,黎健成 ,YUAN Chun . 第十一届和谐人机环境联合会议 . 2015
7. 应用于深度学习的样本采集自动标注及数据增强系统 [A] . 王俊杰 . 2021

深度学习在音乐自动标注中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅