首页> 中文学位 >基于单音的西洋乐器音色识别方法研究
【6h】

基于单音的西洋乐器音色识别方法研究

代理获取

目录

声明

摘要

符号说明

1.1 研究背景与意义

1.2 课题研究现状及发展趋势

1.2.1 音色特征的现状与发展

1.2.2 识别算法的现状与发展

1.3 论文主要工作与组织结构

第2章 音色描述与评价方法

2.1 乐器音色的形成机制

2.1.1 乐器分类

2.1.2 乐器的声学模型

2.2 音色特征

2.2.1 时域特征

2.2.2 频域特征

2.2.3 倒频域特征

2.3 评价方法

2.3.1 乐器测度

2.3.2 整体测度

2.3.3 可视化方法

2.4 交叉验证

2.5 实验数据库

2.6 本章小结

第3章 基于浅层分类器的乐器音色识别

3.1 乐器音色识别框架

3.2 浅层分类器简介

3.2.1 高斯混合模型

3.2.2 通用背景模型

3.2.3 隐马尔可夫模型

3.2.4 支持向量机

3.3 基于音色特征时间序列的乐器音色识别

3.3.1 音色特征集介绍

3.3.2 特征选择与降维

3.3.3 浅层分类器配置

3.3.4 乐器音色识别结果分析

3.4 基于音色特征时间整合的乐器音色识别

3.4.1 音色特征时间整合

3.4.2 浅层分类器配置

3.4.3 乐器音色识别结果分析

3.5 本章小结

第4章 基于深度学习的乐器音色识别

4.1 深度学习简介

4.1.1 卷积神经网络

4.1.2 深度神经网络

4.1.3 深度卷积自编码器

4.2 基于CNN的乐器音色识别

4.2.1 卷积神经网络配置

4.2.2 乐器音色识别结果分析

4.3 基于DNN的乐器音色识别

4.3.1 深度神经网络配置

4.3.2 乐器音色识别结果分析

4.4 基于DCAE的自动音色特征提取

4.4.1 反池化

4.4.2 解卷积

4.4.3 训练策略

4.4.4 深度卷积自编码器配置

4.4.5 DCAE音色特征的评价与分析

4.5 本章小结

5.1 总结

5.2 展望

附录

参考文献

致谢

攻读学位期间发表学术论文

展开▼

摘要

作为音乐信息检索领域内的重要分支,乐器识别的关键在于音色信息的提取。基于乐器音色形成机制,乐器音色的稳定成分主要表现为乐音不同频率成份的时间演变。传统上,音色信息的表达是通过人工设计的音色特征,因此乐器音色主要表现为音色特征时间序列的演变。本文的研究工作侧重于西洋乐器单音的音色识别。
  首先,本文将经过特征选择与降维的音色特征组合,按多种方式作为浅层分类器的输入来实现乐器音色识别。其中,高斯混合模型与通用背景模型将乐器音色信息建模成概率分布,隐马尔可夫模型将乐器音色信息建模成隐状态概率分布与转移概率。无论哪一种分类器,基于信息增益(Information Gain,IG)原则的特征选择方法都表现出相对优越的性能。通用背景模型优于其他两类分类器,取得了92.3%的整体准确率。另外,本文将音色特征时间序列的时间整合作为支持向量机的输入来实现乐器音色识别。对于不同的音色特征,时间整合的组合特征,即统计量与多变量自回归的组合特征(Combination of Multivariate Auto Regression,CMAR),相对于单纯的多变量自回归的特征(Multivariate Auto Regression,MAR)表现出一定的优势。同时,基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)的时间整合组合特征取得相对明显优势。此现象源于人工设计音色特征的缺陷。对于MFCC时间整合的组合特征而言,同样取得了92.3%的整体准确率。同时,两方案都表现出管乐器的识别性能不如弦乐器的特点。
  其次,本文将包含音色特征序列的时间整合特征,作为深度分类器的输入来实现乐器音色识别。相对于支持向量机,深度分类器极大地缓解了管乐器识别效果的不足。同时,深度分类器也提高了乐器识别的整体性能且抑制了乐器间以及乐器家族间的混淆。与支持向量机类似,CMAR特征相对于单纯的MAR特征表现出一定优势,且MFCC取得相对明显优势。无论何种音色特征,基于t-分布随机领域嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)的聚集效果表现为:(1)随着深度分类器模型层数的增加,不同乐器对应的二维矢量特征呈现类内聚集以及类间分离的趋势;(2)对于CMAR而言,各层聚集效果相对要好。同时,聚集的效果与乐器识别测度的分析结果保持一致。卷积神经网络(Convolutional Neural Network,CNN)实现了99.57%的最高整体准确率;深度神经网络(Deep Neural Network,DNN)则为99.02%。深度分类器通过逐层的非线性变换实现了对人工设计音色特征的提炼。虽然提炼后的音色特征的音色属性区分度更好,但深度模型并没有完全突破人工设计音色特征的壁垒。
  最后,本文通过深度卷积自编码器(Deep Convolutional Auto Encode,DCAE)从乐音时间波形中直接提取时域音色特征,并通过CNN与DNN的分类识别测度及t-SNE聚类来评价时域音色特征。从评价结果来看,无监督训练有助于优化有监督训练,具体体现为管乐器的识别效果得到明显提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号