首页> 中国专利> 基于深度学习的手写体乐谱谱线删除方法

基于深度学习的手写体乐谱谱线删除方法

摘要

本发明公开了基于深度学习的手写体乐谱谱线删除方法,本发明模型训练所用数据集为ICDAR/GREC 2013手写体五线谱谱线删除比赛数据集,并且对该数据集进行数据增强,本发明使用了3种不同的数据增强方法。本发明的手写体乐谱谱线删除深度卷积神经网络模型,将含有乐谱图像输入的模型,模型的直接输出不含谱线的乐谱图像的结果图。本方法引入了旋转,谱线间断,谱线加粗3种额外噪声来模拟自然场景下的乐谱,提升了模型的泛化能力。提出了手写体乐谱谱线删除模型,实现了99.3%的删除准确率,在实时性上完成一张1024*2048大小的乐谱图像仅需14.85秒,相较于前文所提模型在实时性上大幅提高。

著录项

  • 公开/公告号CN112686272A

    专利类型发明专利

  • 公开/公告日2021-04-20

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202011512328.3

  • 发明设计人 黄志清;张煜森;

    申请日2020-12-19

  • 分类号G06K9/46(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人沈波

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 10:41:48

说明书

技术领域

本发明属于音乐信息检索领域,是一种基于深度学习的手写体乐谱谱线删除方法,可应用于手写体乐谱识别的预处理阶段。

背景技术

光学乐谱识别是一项将乐谱图像识别转换为机器可读格式的技术。光学乐谱识别的一般流程为谱线删除,接着完成音符分割与分类,然后进行音符信息重建,进而得到音高时值等信息,最终可将乐谱转化为可编辑,可播放的格式,如MIDI格式。虽然现在已经能够在不删除谱线的情况下直接完成打印体乐谱的识别,但是对于复杂多样的手写体乐谱识别来说,谱线与音符等多种记号交织重叠,使得音符识别困难,精度较低并且对音符类型的识别不完整。因此手写体乐谱的谱线删除就成为了手写体乐谱识别的重要预处理环节。然而手写体乐谱谱线与部分手写音符(如连音线,渐强渐弱符号)存在相似性,且受保存条件,拍摄条件等多方面因素的影响乐谱图像质量参差不齐,这些都加大了手写体乐谱谱线删除的难度。

目前手写体谱线删除技术分为三类,基于谱线形态特征分析的传统方法,基于机器学习方法以及基于深度学习的方法,但是目前这些方法步骤较为冗余,如图1所示,实时性较差,模型完成谱线删除大约需要200秒,且无法做到直接对任意大小乐谱进行谱线删除。并且利用谱线特征进行删除的传统方法与基于机器学习的方法只能处理二值化乐谱图像,当遇到谱线不规则,或图像质量下降的时候,使用传统方法进行谱线删除时易出现谱线残留与音符误删情况。

随着深度学习在视觉领域取得突破,将深度学习方法应用至手写体乐谱谱线删除问题大多都取得了较好的效果。但是目前基于深度学习的方法存在如下问题,计算量过大(如使用卷积神经网络(CNN)对乐谱图像进行逐像素分类),模型难训练易崩溃(如使用对抗生成网络(GAN)),模型需手动选择合适阈值,易导致图像质量下降(如使用自编码器(Auto-encoder))。

发明内容

本发明针对目前手写体乐谱谱线删除算法步骤冗余,噪声适应性弱,实时性差的问题,设计了基于深度学习的端到端手写体乐谱谱线删除模型,将任意大小的手写体乐谱图像输入模型,模型直接输出不含谱线的乐谱图像。

为实现上述目的,本发明采用的技术方案为基于深度学习的手写体乐谱谱线删除方法,该方法一共分为两步:

(1)数据增强:本发明模型训练所用数据集为ICDAR/GREC 2013手写体五线谱谱线删除比赛数据集,并且对该数据集进行数据增强,本发明使用了3种不同的数据增强方法。

(2)端到端模型:图2展示了应用本发明的手写体乐谱谱线删除深度卷积神经网络模型,将含有乐谱图像输入的模型,模型的直接输出不含谱线的乐谱图像的结果图。

本发明核心算法

(1)数据预处理

本发明使用模型训练所用数据集为ICDAR/GREC 2013手写体五线谱谱线删除比赛数据集,该数据集由1000张手写乐谱图像做不同退化处理得到,共计4000张大小为3400*2200的训练图像,2000张测试图像。其中训练图像包括3D失真模型生成1000张3-D失真图像,三种不同水平的局部噪声得到1000张含噪图像,其中局部噪声水平越高,对应的噪点越多,噪声区域越大。以及组合与上述两种退化处理而获得的含噪乐谱图像2000张。为了使本发明模型能够对低质量图像与不规则乐谱图像具有较好的鲁棒性,本发明使用了3种数据增强方法,如图3所示,从上至下分别为图像旋转用以模拟不同拍摄角度,谱线加粗用以模拟乐谱图像被污染,谱线间断用以模拟保存质量不高的乐谱。

(2)端到端音符识别模型

手写体谱线删除模型的流程为:将任意大小的乐谱图像输入卷积神经网络,经过一系列卷积操作,提取乐谱谱线特征,之后使用输入图像减去提取到的谱线特征最终得到不含谱线的乐谱图像。

本发明模型结构图如图4所示,由六部分组成,分别为Conv_head,Conv_body_1,Conv_body_2,Conv_body_3,Conv_body_4,Conv_tail。

根据图4模型结构图我们假设模型输入为Y,Y=X+V,我们将训练深度神经网络去拟合R(Y)≈V,最终输出X’=Y-R(Y)。其中X代表不含五线谱的图像,V代表五线谱谱线,R()表示网络模型,Y代表输入的含有五线谱的图像,X’表示最终网络输出的不含五线谱的图像。相比于现有方法使用网络直接拟合R(Y)≈X,使用网络拟合R(Y)≈V的原因在于相比音符的多样性,谱线的特征更为单一和明显,所以训练网络去获取谱线特征则更加有利于模型的快速收敛以及性能的提升。

在网络结构的设计上,本发明借鉴了多尺度神经网络模型的优点,从Conv_body_2到Conv_body_4,每经过一个模块就将特征图大小缩小一倍,通道数增加一倍,最后将不同层的特征利用concat操作进行特征融合,这样设计的好处在于模型不会学习到某一固定尺度下的信息,并且可以将不同尺度下的信息相结合,对于音符密集分布的乐谱图像来说,这将有利于提高模型提取特征,提高删除准确率。

在模型结构图中Conv_head为卷积核大小为3,通道数为64的2-D卷积层。Conv_body1由6个残差注意力模块组成,Conv_body2由8个残差注意力模块组成,Conv_body3由10个残差注意力模块组成,Conv_body4由12个残差注意力模块组成,其中残差注意力模块结构如图5所示,我们在层内应用Squeeze-and-Excitation注意力模块,如图5所示,首先使用池化层层得到特征图的特征量,然后通过两个全连接层与Sigmoid函数得到不同通道的权重,再将加权之后的特征图送入下一个模块。本模块中全连接层是通过卷积核大小为1*1的卷积层实现。该注意力模块可以自动学习到不同通道的重要程度。注意力机制的引入将有利于重要特征的加强,提高模型准确率,降低训练难度。

在残差注意力模块中残差块如图6所示。本发明中为减小计算量本文仅保留了部分的批量归一化(Batch-normal)层和每个残差模块内部的relu层,其中第一个卷积层是一个1*1卷积核的卷积层,目的是将通道数降为原来的一半,然后再使用第二个卷积层,第二个卷积层是一个卷积核大小为3*3的卷积层用于特征提取。Prelu表示激活函数为Prelu(可学习参数的激活函数),残差和表示残差相加结果。这样的设计将大大减小计算量,有利于提高模型实时性。

Conv_tail则为通道数为1,卷积核大小为3*3的2D卷积层。

本发明针对手写体乐谱图像提出端到端的谱线删除模型,应用深度卷积神经网络提取谱线特征,最终输出不含谱线的乐谱图像。实验测试结果显示识别一整张乐谱图像只需14.85秒,并能够获取99.3%的删除准确率,计算公式如图7,式中TP,TN,FP,FN分别表示将音符分类为音符的数值,将背景与谱线分类为背景与谱线的数值,将音符分类为背景与谱线的数量,将背景与谱线分类为音符的数量。

本方法的核心技术包括:

(1)引入了旋转,谱线间断,谱线加粗3种额外噪声来模拟自然场景下的乐谱,提升了模型的泛化能力。

(2)提出了手写体乐谱谱线删除模型,实现了99.3%的删除准确率,在实时性上完成一张1024*2048大小的乐谱图像仅需14.85秒,相较于前文所提模型在实时性上大幅提高。

附图说明

图1是不同方法流程对比图。

图2是本发明模型的手写体乐谱谱线删除结果图。

图3是数据增强结果图。

图4是本发明结构图。

图5是注意力残差模块结构图。

图6是残差模块的结构图。

图7是准确率计算公式图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

本发明采用的技术方案为基于深度学习的手写体乐谱谱线删除方法,该方法包括如下步骤,(1)数据增强:对于选取的每一张乐谱图像,将整张乐谱图像进行随机裁剪256*512大小的图像,并且将此操作执行4遍这样数据总量扩大了4倍。之后引入旋转,谱线间断,谱线加粗等3种噪声来对数据进行增强,然后将图像输入给神经网络模型。

(2)数据输入到神经网络模型之后,使用ADAM优化器训练模型,选取的批量大小为8,初始学习率为0.001,学习率使用自适应方法调整,当验证集上准确率连续5个epoch不下降后将学习率调整为原来的十分之一。大概28个epoch后,模型开始收敛。采用两块1080Ti用于训练,在大约5小时内训练完模型。

(3)训练好神经网络模型之后,输入一张任意大小的手写体乐谱图像,模型能够输出不含谱线的乐谱图像。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号