首页> 中国专利> 一种艺术家分类方法、系统、终端及存储介质

一种艺术家分类方法、系统、终端及存储介质

摘要

本发明公开了一种艺术家分类方法、系统、终端及存储介质。所述方法包括:获取原始音频信号的第一频谱,并利用编码器对第一频谱进行编码处理,得到编码后的连续变量,连续变量中包含原始音频信号的音色信息和音频内容信息;对连续变量进行实例正则化,并利用码书中的离散码字对实例正则化结果进行矢量量化,矢量量化结果表示原始音频信号的音频内容信息;将连续变量与矢量量化结果做差,得到连续变量与矢量量化结果之间的差值,将差值作为原始音频信号的第一音色特征,第一音色特征为原始音频信号中的音色逐帧变化特征;将第一音色特征输入艺术家分类网络,通过艺术家分类网络输出原始音频信号的艺术家分类结果。本申请提高了艺术家分类的准确度。

著录项

  • 公开/公告号CN114974307A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202210516100.4

  • 发明设计人 张旭龙;王健宗;程宁;

    申请日2022-05-12

  • 分类号G10L25/54(2013.01);G10L25/18(2013.01);G06K9/62(2022.01);

  • 代理机构深圳国新南方知识产权代理有限公司 44374;

  • 代理人周雷

  • 地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 16:36:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G10L25/54 专利申请号:2022105161004 申请日:20220512

    实质审查的生效

说明书

技术领域

本发明涉及音频信号识别技术领域,特别是涉及一种艺术家分类方法、系统、终端及存储介质。

背景技术

艺术家分类任务是指识别给定歌曲片段中的演唱者,对艺术家进行准确分类对基于音频内容的音乐检索等有着很重要的作用,例如:自动打标签、相似演唱者推荐以及按照演唱者进行曲库管理等。对于一些较为熟悉的歌曲,通常只需要听到歌曲中的几个字词或一句歌词就可以轻松地识别出歌曲的演唱者。但是对于大量未知的歌曲,有些演唱者的演唱声音很难区分,在对歌曲不熟悉的情况下,人们也很难准确的分辨出歌曲的演唱者。

现有的艺术家分类方法通常采用歌曲识别的方法,例如采用数据库技术和音频指纹技术对现有歌曲提取音频指纹存储到数据库,然后对待识别歌曲提取音频指纹,再与数据库中存储的音频指纹进行匹配,从而完成艺术家分类任务。该方法需要建立海量的音乐曲库,较为耗费资源,构建成本较高。另一种方法是基于深度模型进行特征提取,用以分辨属于不同演唱者的类别。该方式虽然避免了构建庞大的音乐曲库,但由于深度模型学习到的是整个歌曲的差异而不是演唱者音色上的差异,而艺术家分类的主体应该是演唱者的嗓音而不是歌曲本身,导致艺术家分类的准确度不高。

发明内容

本发明提供了一种艺术家分类方法、系统、终端及存储介质,旨在解决现有的艺术家分类方法存在的耗费资源、构建成本较高以及艺术家分类准确度不高等技术问题。

为解决上述技术问题,本发明采用的技术方案为:

一种艺术家分类方法,包括:

获取原始音频信号的第一频谱,并利用编码器对所述第一频谱进行编码处理,得到编码后的连续变量V,所述连续变量V中包含原始音频信号的音色信息和音频内容信息;

对所述连续变量V进行实例正则化,并利用码书中的离散码字对实例正则化结果进行矢量量化,得到矢量量化结果,所述矢量量化结果表示所述原始音频信号的音频内容信息;

将所述连续变量与矢量量化结果做差,得到所述连续变量与矢量量化结果之间的差值,将所述差值作为原始音频信号的第一音色特征,所述第一音色特征为所述原始音频信号中的音色逐帧变化特征;

将所述第一音色特征输入艺术家分类网络,通过所述艺术家分类网络输出原始音频信号的艺术家分类结果。

本发明实施例采取的技术方案还包括:所述获取原始音频信号的第一频谱包括:

将原始音频信号输入预训练好的人声伴奏分离模型,通过人声伴奏分离模型提取原始音频信号中的人声干声;

对所提取的人声干声进行短时傅里叶变换,得到所述原始音频信号的第一频谱X。

本发明实施例采取的技术方案还包括:所述对所述连续变量V进行实例正则化包括:

对每一个连续变量V,分别计算其均值u以及方差σ^;

根据所述均值u以及方差σ^对所述连续变量V进行归一化,得到实例正则化结果V’;

所述归一化公式为:

本发明实施例采取的技术方案还包括:所述利用码书中的离散码字对实例正则化结果进行矢量量化包括:

对所述实例正则化结果V’进行码字查找,计算所述实例正则化结果V’与码书中每一个码字的距离,并求argmin得到距离最相近的码字来表示实例正则化结果V’。

本发明实施例采取的技术方案还包括:所述将所述连续变量与矢量量化结果做差,得到所述连续变量与矢量量化结果之间的差值还包括:

对所述连续变量与矢量量化结果的做差结果进行逐帧均值,并按照帧的数目进行复制展开,得到所述原始音频信号的第二音色特征,所述第二音色特征表示同一个演唱者的音色不随时间而变化。

本发明实施例采取的技术方案还包括:所述将所述第一音色特征输入艺术家分类网络之前还包括:

将所述矢量量化结果和第二音色特征进行融合,并将融合结果输入解码器中进行频谱重构,利用频谱重构任务使得所述第一音色特征被约束为逐帧音色特征;

所述将融合结果输入解码器中进行频谱重构包括:

基于所述矢量量化结果与第二音色特征的融合结果,利用解码器进行频谱重构,得到重构后的第二频谱X’;

通过对所述第一频谱X和第二频谱X’计算MAE损失,完成频谱重构任务,通过所述频谱重构任务对所述矢量量化结果和第二音色特征进行约束,使得所述矢量量化结果中包含尽可能多的音频内容信息,使得所述第二音色特征中包含尽可能多的音色信息,并使得所述第一音色特征被约束为逐帧音色特征。

本发明实施例采取的技术方案还包括:所述将所述第一音色特征输入艺术家分类网络,通过所述艺术家分类网络输出原始音频信号的艺术家分类结果包括:

所述艺术家分类网络采用包括2D卷积层、GRU-RNN层以及全连接层,利用所述2D卷积层学习第一音色特征在空间维度上的特征,利用所述GRU-RNN网络学习第一音色特征在时域上的特征,并通过全连接层连接到类别进行softmax分类识别,输出所述原始音频信号对应的演唱者标签。

本发明实施例采取的另一技术方案为:一种艺术家分类系统,包括:

编码计算模块:用于获取原始音频信号的第一频谱,并利用编码器对所述第一频谱进行编码处理,得到编码后的连续变量V,所述连续变量V中包含原始音频信号的音色信息和音频内容信息;

矢量量化模块:用于对所述连续变量V进行实例正则化,并利用码书中的离散码字对实例正则化结果进行矢量量化,得到矢量量化结果,所述矢量量化结果表示所述原始音频信号的音频内容信息;

音色获取模块:用于将所述连续变量与矢量量化结果做差,得到所述连续变量与矢量量化结果之间的差值,将所述差值作为原始音频信号的第一音色特征,所述第一音色特征为所述原始音频信号中的音色逐帧变化特征;

艺术家分类模块:用于将所述第一音色特征输入艺术家分类网络,通过所述艺术家分类网络输出原始音频信号的艺术家分类结果。

本发明实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,

所述存储器存储有用于实现上述的艺术家分类方法的程序指令;

所述处理器用于执行所述存储器存储的所述程序指令以执行所述艺术家分类操作。

本发明实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行上述的艺术家分类方法。

本发明实施例的艺术家分类方法、系统、终端及存储介质通过引入矢量量化的方法对音频内容信息进行表示,利用离散码字变量表示降低连续变量的数据量,更好的体现了音频信号的音色信息;通过对音色信息和音频内容信息进行融合并进行频谱重构,实现了音频内容信息和音色信息的准确解耦合,并使得音色信息被约束为逐帧音色特征,最后基于逐帧音色特征进行艺术家分类,增强了逐帧音色特征在多维度上的分类识别,提高了艺术家分类的准确度。

附图说明

图1是本发明第一实施例的艺术家分类方法的流程示意图;

图2是本发明第二实施例的艺术家分类方法的流程示意图;

图3是本发明实施例艺术家分类系统的结构示意图;

图4是本发明实施例的终端结构示意图;

图5是本发明实施例的存储介质结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

请参阅图1,是本发明第一实施例的艺术家分类方法的流程示意图。本发明第一实施例的艺术家分类方法包括以下步骤:

S100:获取原始音频信号的第一频谱,并利用编码器对第一频谱进行编码处理,得到编码后的连续变量V,连续变量V中包含原始音频信号的音色信息和音频内容信息;

S101:对连续变量V进行实例正则化,并利用码书中的离散码字对实例正则化结果进行矢量量化,得到矢量量化结果,矢量量化结果表示原始音频信号的音频内容信息;

S102:将连续变量与矢量量化结果做差,得到连续变量与矢量量化结果之间的差值,将差值作为原始音频信号的第一音色特征;

S103:将第一音色特征输入艺术家分类网络,通过艺术家分类网络输出原始音频信号的艺术家分类结果。

请参阅图2,是本发明第二实施例的艺术家分类方法的流程示意图。本发明第二实施例的艺术家分类方法包括以下步骤:

S200:将原始音频信号输入预训练好的人声伴奏分离模型,通过人声伴奏分离模型提取原始音频信号中的人声干声;

本步骤中,人声伴奏分离模型为由卷积网络、反卷积网络以及中间对应层的跳跃链接构成的U-net网络结构。通过预先对基于U-net网络结构的人声伴奏分离模型进行单独训练,得到模型的最优参数后,对输入的原始音频信号进行人声干声提取。

S201:对提取的人声干声进行STFT(short-time Fourier transform,短时傅里叶变换)变换,得到原始音频信号的第一频谱X;

本步骤中,STFT算法利用一个窗函数对人声干声信号进行分帧操作,对分帧加窗后的各帧信号进行FFT(Fast Fourier Transform,快速傅立叶变换)变换,得到各帧信号的频谱。

S202:将第一频谱X输入编码器,利用编码器对第一频谱X进行编码处理,得到编码后的连续变量V,连续变量V中包含原始音频信号的音色信息和音频内容信息;

本步骤中,编码器(encoder)包括4层2D卷积层以及2层LSTM(Long Short-TermMemory,长短期记忆网络)层,输入的第一频谱X经过2D卷积层后得到大小为256*80的空间特征,然后经过LSTM层学习第一频谱X的时序特征,得到维度为80的连续变量V。

S203:利用实例正则化层对连续变量V进行实例正则化,得到实例正则化结果V’;

本步骤中,连续变量V的实例正则化具体为:对每一个连续变量V,分别计算其均值u以及方差σ^,然后根据均值u以及方差σ^对连续变量V进行归一化,得到实例正则化结果V’。其中,归一化公式为:

S204:对实例正则化结果V’进行码字查找,使用码书中的离散码字对实例正则化结果V’进行矢量量化,得到矢量量化结果C,矢量量化结果C仅表示原始音频信号中的音频内容信息;

本步骤中,在进行码字查找时,码书中存在多个码字,计算实例正则化结果V’与码书中每一个码字的距离,并求argmin得到距离最相近的码字来表示实例正则化结果V’。其中矢量量化(VectorQuantization,VQ)是一种基于块编码规则的有损数据压缩方法,通过将若干个标量数据组构成一个矢量,然后在矢量空间给以整体量化,从而压缩数据而不损失多少信息。码书有固定大小,即码字个数是固定的,要想表示不同的实例正则化结果V’,则需要调整码书中的码字变量,通过在训练过程中不断调整码书,最终固定下来的码字即为训练好的离散变量,而将实例正则化结果V’用离散码字变量表示的过程即为矢量量化。例如:如果实例正则化结果V’为1.1或1.2,可以表示为码书中的1,而如果实例正则化结果V’为2.1、2.2或1.9,则可以表示为码书中的2。基于此,本申请实施例通过引入矢量量化的方法对音频内容信息进行表示,降低了连续变量V的数据量。

S205:将连续变量V与矢量量化结果C做差,得到连续变量和离散变量之间的差值,将该差值作为原始音频信号的第一音色特征S’,同时对做差结果进行逐帧均值,并按照帧的数目进行复制展开,得到原始音频信号的第二音色特征S;

本步骤中,矢量量化结果C和连续变量V之间的差异体现了音频信号的音色特征。对做差结果进行逐帧均值即求所有时间上的音色均值;第一音色特征S’捕捉了原始音频信号中音色逐帧的细节变化,而第二音色特征S表现了同一个演唱者的音色不随时间而变化。

S206:将矢量量化结果C和第二音色特征S进行融合,并将融合结果输入解码器中进行频谱重构,利用频谱重构任务使得第一音色特征S’被约束为逐帧音色特征;

本步骤中,基于矢量量化结果C与第二音色特征S的融合结果,利用解码器进行频谱重构,得到重构后的第二频谱X’,通过对第一频谱X和重构后的第二频谱X’计算MAE(meanabsolute error,平均绝对值误差)损失,完成频谱重构任务,从而实现音频内容信息和音色信息的准确解耦合。通过频谱重构任务对矢量量化结果C和第二音色特征S进行约束,使得矢量量化结果C中包含尽可能多的音频内容信息,而使得第二音色特征S中包含尽可能多的音色信息,同时使得第一音色特征S’被约束为逐帧音色特征。

S207:将逐帧音色特征输入艺术家分类网络,通过艺术家分类网络输出原始音频信号的艺术家分类结果;

本步骤中,艺术家分类网络采用CRNN(Convolutional Recurrent NeuralNetwork,卷积递归神经网络)结构,包括4层2D卷积层、2层GRU-RNN层以及最后一层全连接层,首先利用2D卷积层学习逐帧音色特征在空间维度上的特征,然后利用GRU-RNN网络学习逐帧音色特征在时域上的特征,增强逐帧音色特征在多维度上的分类识别,最后通过全连接层连接到类别进行softmax分类识别,输出原始音频信号对应的演唱者标签。本申请实施例通过基于逐帧音色特征进行艺术家分类,增强了逐帧音色特征在多维度上的分类识别,提高了艺术家分类准确度。

基于上述,本发明第二实施例的艺术家分类方法通过引入矢量量化的方法对音频内容信息进行表示,利用离散码字变量表示降低连续变量的数据量,更好的体现了音频信号的音色信息;通过对音色信息和音频内容信息进行融合并进行频谱重构,实现了音频内容信息和音色信息的准确解耦合,并使得音色信息被约束为逐帧音色特征,最后基于逐帧音色特征进行艺术家分类,增强了逐帧音色特征在多维度上的分类识别,提高了艺术家分类的准确度。

在一个可选的实施方式中,还可以:将所述的艺术家分类方法的结果上传至区块链中。

具体地,基于所述的艺术家分类方法的结果得到对应的摘要信息,具体来说,摘要信息由所述的艺术家分类方法的结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述的艺术家分类方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参阅图3,是本发明实施例艺术家分类系统的结构示意图。本发明实施例艺术家分类系统40包括:

编码计算模块41:用于获取原始音频信号的第一频谱,并利用编码器对第一频谱进行编码处理,得到编码后的连续变量V,连续变量V中包含原始音频信号的音色信息和音频内容信息;其中,本申请实施例通过将原始音频信号输入预训练好的人声伴奏分离模型,通过人声伴奏分离模型提取原始音频信号中的人声干声,对所提取的人声干声进行短时傅里叶变换,得到原始音频信号的第一频谱X,并将第一频谱X输入编码器,编码器包括4层2D卷积层以及2层LSTM层,输入的第一频谱X经过2D卷积层后得到大小为256*80的空间特征,然后经过LSTM层学习第一频谱X的时序特征,得到维度为80的连续变量V。

矢量量化模块42:用于对连续变量V进行实例正则化,并利用码书中的离散码字对实例正则化结果进行矢量量化,得到矢量量化结果,矢量量化结果表示原始音频信号的音频内容信息;其中,连续变量V的实例正则化具体为:对每一个连续变量V,分别计算其均值u以及方差σ^,然后根据均值u以及方差σ^对连续变量V进行归一化,得到实例正则化结果V’。其中,归一化公式为:

音色获取模块43:用于将连续变量与矢量量化结果做差,得到连续变量与矢量量化结果之间的差值,将差值作为原始音频信号的第一音色特征;同时,对连续变量与矢量量化结果的做差结果进行逐帧均值,并按照帧的数目进行复制展开,得到原始音频信号的第二音色特征,所述第二音色特征表示同一个演唱者的音色不随时间而变化。

艺术家分类模块44:用于将第一音色特征输入艺术家分类网络,通过艺术家分类网络输出原始音频信号的艺术家分类结果;具体的,在将所述第一音色特征输入艺术家分类网络之前,将矢量量化结果和第二音色特征进行融合,并将融合结果输入解码器中进行频谱重构,利用频谱重构任务使得第一音色特征被约束为逐帧音色特征;其中,将融合结果输入解码器中进行频谱重构包括:基于矢量量化结果与第二音色特征的融合结果,利用解码器进行频谱重构,得到重构后的第二频谱X’;通过对第一频谱X和第二频谱X’计算MAE损失,完成频谱重构任务,通过频谱重构任务对矢量量化结果和第二音色特征进行约束,使得矢量量化结果中包含尽可能多的音频内容信息,使得第二音色特征中包含尽可能多的音色信息,并使得第一音色特征被约束为逐帧音色特征。

本申请实施例中,艺术家分类网络采用CRNN结构,包括4层2D卷积层、2层GRU-RNN层以及最后一层全连接层,首先利用2D卷积层学习逐帧音色特征在空间维度上的特征,然后利用GRU-RNN网络学习逐帧音色特征在时域上的特征,增强逐帧音色特征在多维度上的分类识别,最后通过全连接层连接到类别进行softmax分类识别,输出原始音频信号对应的演唱者标签。本申请实施例通过基于逐帧音色特征进行艺术家分类,增强了逐帧音色特征在多维度上的分类识别,提高了艺术家分类准确度。

基于上述,本发明实施例的艺术家分类系统通过引入矢量量化的方法对音频内容信息进行表示,利用离散码字变量表示降低连续变量的数据量,更好的体现了音频信号的音色信息;通过对音色信息和音频内容信息进行融合并进行频谱重构,实现了音频内容信息和音色信息的准确解耦合,并使得音色信息被约束为逐帧音色特征,最后基于逐帧音色特征进行艺术家分类,增强了逐帧音色特征在多维度上的分类识别,提高了艺术家分类的准确度。

请参阅图4,为本发明实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述艺术家分类方法的程序指令。

处理器51用于执行存储器52存储的程序指令以执行艺术家分类操作。

其中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图5,图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号