首页> 中国专利> 基于佛乐的音轨分离方法、装置、设备及存储介质

基于佛乐的音轨分离方法、装置、设备及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及人工智能领域，公开了一种基于佛乐的音轨分离方法、装置、设备及存储介质，用于提高分离音轨的灵活性和分离音轨的工作效率。基于佛乐的音轨分离方法包括：获取音乐数据，并将音乐数据拆分为多个时段音乐数据，音乐数据为佛乐数据；将音乐数据输入预置的权重参数生成器，得到多个参数权重；将多个参数权重和多个时段音乐数据输入预置的提取器模型，结合每个时段音乐数据的分辨率进行音轨分离，生成多个音乐音轨组，每个音乐音轨组包括多种类型音轨，提取器包括线性编码器、膨胀神经网络和解码器；按照多种类型音轨，对多个音乐音轨组进行整合，得到多个目标完整音轨。此外，本发明还涉及区块链技术，多个目标完整音轨可存储于区块链中。

著录项

公开/公告号CN113012667A

专利类型发明专利
公开/公告日2021-06-22

原文格式PDF
申请/专利权人平安科技(深圳)有限公司;
展开▼

申请/专利号CN202110284978.5
发明设计人蒋慧军;
展开▼

申请日2021-03-17
分类号G10H1/00(20060101);G10L21/0272(20130101);G06N3/04(20060101);G06F17/14(20060101);
代理机构11321 北京市京大律师事务所;
代理人姚维
地址 518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 11:32:36

说明书

技术领域

本发明涉及神经网络技术领域，尤其涉及一种基于佛乐的音轨分离方法、装置、设备及存储介质。

背景技术

佛乐往往是以多音轨的形式存在的，包括人声和多种乐器的伴奏。有时信徒们需要提取其中的伴奏部分或者提取某一个乐器的音轨，当作伴奏用于自己歌唱佛乐或乐器演奏练习。

分离佛乐的多种乐器与人声需要借鉴音乐源分离的相关技术，目前针对音乐源分离的主要方法是为每一种乐器都训练一个单独的模型，然后将具有该类乐器的音乐源输入该模型中进行音轨分离，导致音轨分离的灵活性较低。而且大多都是通过混合信号的时频来进行音轨分离，导致分离音轨的效率较低。

发明内容

本发明提供了一种基于佛乐的音轨分离方法、装置、设备及存储介质，提高了分离音轨的灵活性和分离音轨的工作效率。

本发明第一方面提供了一种基于佛乐的音轨分离方法，包括：获取音乐数据，并将所述音乐数据拆分为多个时段音乐数据，所述音乐数据为佛乐数据；将所述音乐数据输入预置的权重参数生成器，得到多个参数权重；将所述多个参数权重和所述多个时段音乐数据输入预置的提取器模型中，结合每个时段音乐数据的分辨率进行音轨分离，生成多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器；按照多种类型音轨，对多个音乐音轨组进行整合，得到多个目标完整音轨。

可选的，在本发明第一方面的第一种实现方式中，所述获取音乐数据，并将所述音乐数据拆分为多个时段音乐数据，所述音乐数据为佛乐数据包括：获取音乐数据，所述音乐数据为佛乐数据；从所述音乐数据中读取多个时刻参数，并对所述多个时刻参数进行划分，得到多个时段；按照每个时段对所述音乐数据进行拆分，得到多个时段音乐数据。

可选的，在本发明第一方面的第二种实现方式中，所述将所述音乐数据输入预置的权重参数生成器，得到多个参数权重包括：对所述音乐数据进行特征提取，得到音乐特征向量；将所述音乐特征向量输入预置的权重参数生成器网络中，得到多个参数权重，所述多个参数权重用于表示音乐数据中的多个乐器与人声之间的关系表示。

可选的，在本发明第一方面的第三种实现方式中，所述将所述多个参数权重和所述多个时段音乐数据输入预置的提取器模型中，结合每个时段音乐数据的分辨率进行音轨分离，生成多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器包括：将所述多个时段音乐数据依次输入预置的提取器模型的线性编码器中，并结合所述权重参数和每个时段音乐数据，生成多个频率待卷积向量；根据所述提取器模型中的膨胀神经网络对所述多个频率待卷积向量依次进行卷积，得到多个膨胀卷积向量；根据所述提取器模型中的解码器对所述多个膨胀卷积向量依次进行解码，得到多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器。

可选的，在本发明第一方面的第四种实现方式中，所述将所述多个时段音乐数据依次输入预置的提取器模型的线性编码器中，并结合所述权重参数和每个时段音乐数据，生成多个频率待卷积向量包括：对每个时段音乐数据进行特征提取，得到多个时段音乐特征向量；将每个时段音乐特征向量依次输入预置的提取器模型的线性编码器中，在预置的一维多内核卷积层中，对每个时段音乐特征向量进行卷积，得到多个一维卷积向量；结合预置的短时傅里叶变换谱图依次对所述多个一维卷积向量进行归一化，得到多个频率归一化卷积向量；对所述多个频率归一化卷积向量进行线性变换，得到多个线性变换后的卷积向量；将每个线性变换后的卷积向量与所述权重参数进行合并，得到多个频率待卷积向量。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述提取器模型中的膨胀神经网络对所述多个频率待卷积向量依次进行卷积，得到多个膨胀卷积向量包括：从所述多个频率待卷积向量中读取多个分辨率，并所述多个分辨率分别对多个待卷积向量进行排序，得到多个分辨率待卷积向量序列，排序为从低到高的顺序；采用预置的膨胀卷积神经网络，结合从低到高的时段顺序对每个分辨率待卷积向量序列进行膨胀卷积，得到第一膨胀卷积向量；采用所述膨胀卷积神经网络，结合所述第一膨胀卷积向量和从低到高的时段顺序对每个分辨率待卷积向量序列进行膨胀卷积，得到第二膨胀卷积向量；按照上述步骤对其他分辨率待卷积向量进行膨胀卷积，得到其他膨胀卷积向量；整合所述第一膨胀卷积向量、所述第二膨胀卷积向量和所述其他膨胀卷积向量，得到多个膨胀卷积向量。

可选的，在本发明第一方面的第六种实现方式中，所述根据所述提取器模型中的解码器对所述多个膨胀卷积向量依次进行解码，得到多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器包括：从每个膨胀卷积向量中读取对应的向量维度：将每个膨胀卷积向量输入所述提取器模型的解码中，采用预置的一维深度神经卷积网络，按照目标向量维度对对应的膨胀卷积向量进行解码，生成多个初始音乐音轨组和对应的音乐音轨概率组；基于所述多个初始概率音乐音轨组和对应的音乐音轨概率组，得到多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器。

本发明第二方面提供了一种基于佛乐的音轨分离装置，包括：获取模块，用于获取音乐数据，并将所述音乐数据拆分为多个时段音乐数据，所述音乐数据为佛乐数据；权重参数生成模块，用于将所述音乐数据输入预置的权重参数生成器，得到多个参数权重；音轨分离模块，用于将所述多个参数权重和所述多个时段音乐数据输入预置的提取器模型中，结合每个时段音乐数据的分辨率进行音轨分离，生成多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器；整合模块，用于按照多种类型音轨，对多个音乐音轨组进行整合，得到多个目标完整音轨。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块具体用于：获取音乐数据，所述音乐数据为佛乐数据；从所述音乐数据中读取多个时刻参数，并对所述多个时刻参数进行划分，得到多个时段；按照每个时段对所述音乐数据进行拆分，得到多个时段音乐数据。

可选的，在本发明第二方面的第二种实现方式中，所述权重参数生成模块具体用于：对所述音乐数据进行特征提取，得到音乐特征向量；将所述音乐特征向量输入预置的权重参数生成器网络中，得到多个参数权重，所述多个参数权重用于表示音乐数据中的多个乐器与人声之间的关系表示。

可选的，在本发明第二方面的第三种实现方式中，音轨分离模块包括：编码单元，用于将所述多个时段音乐数据依次输入预置的提取器模型的线性编码器中，并结合所述权重参数和每个时段音乐数据，生成多个频率待卷积向量；卷积单元，用于根据所述提取器模型中的膨胀神经网络对所述多个频率待卷积向量依次进行卷积，得到多个膨胀卷积向量；解码单元，用于根据所述提取器模型中的解码器对所述多个膨胀卷积向量依次进行解码，得到多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器。

可选的，在本发明第二方面的第四种实现方式中，编码单元具体用于：对每个时段音乐数据进行特征提取，得到多个时段音乐特征向量；将每个时段音乐特征向量依次输入预置的提取器模型的线性编码器中，在预置的一维多内核卷积层中，对每个时段音乐特征向量进行卷积，得到多个一维卷积向量；结合预置的短时傅里叶变换谱图依次对所述多个一维卷积向量进行归一化，得到多个频率归一化卷积向量；对所述多个频率归一化卷积向量进行线性变换，得到多个线性变换后的卷积向量；将每个线性变换后的卷积向量与所述权重参数进行合并，得到多个频率待卷积向量。

可选的，在本发明第二方面的第五种实现方式中，卷积单元具体用于：从所述多个频率待卷积向量中读取多个分辨率，并所述多个分辨率分别对多个待卷积向量进行排序，得到多个分辨率待卷积向量序列，排序为从低到高的顺序；采用预置的膨胀卷积神经网络，结合从低到高的时段顺序对每个分辨率待卷积向量序列进行膨胀卷积，得到第一膨胀卷积向量；采用所述膨胀卷积神经网络，结合所述第一膨胀卷积向量和从低到高的时段顺序对每个分辨率待卷积向量序列进行膨胀卷积，得到第二膨胀卷积向量；按照上述步骤对其他分辨率待卷积向量进行膨胀卷积，得到其他膨胀卷积向量；整合所述第一膨胀卷积向量、所述第二膨胀卷积向量和所述其他膨胀卷积向量，得到多个膨胀卷积向量。

可选的，在本发明第二方面的第六种实现方式中，所述解码单元还具体用于：从每个膨胀卷积向量中读取对应的向量维度：将每个膨胀卷积向量输入所述提取器模型的解码中，采用预置的一维深度神经卷积网络，按照目标向量维度对对应的膨胀卷积向量进行解码，生成多个初始音乐音轨组和对应的音乐音轨概率组；基于所述多个初始概率音乐音轨组和对应的音乐音轨概率组，得到多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器。

本发明第三方面提供了一种基于佛乐的音轨分离设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于佛乐的音轨分离设备执行上述的基于佛乐的音轨分离方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于佛乐的音轨分离方法。

本发明提供的技术方案中，获取音乐数据，并将所述音乐数据拆分为多个时段音乐数据，所述音乐数据为佛乐数据；将所述音乐数据输入预置的权重参数生成器，得到多个参数权重；将所述多个参数权重和所述多个时段音乐数据输入预置的提取器模型中，结合每个时段音乐数据的分辨率进行音轨分离，生成多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器；按照多种类型音轨，对多个音乐音轨组进行整合，得到多个目标完整音轨。本发明实施例中，基于音乐数据生成多个参数权重，实现了特定乐器的参数化，从而提高了提取器模型在分离音轨时的灵活性；而且结合线性编码器采用多时段多分辨率的方式进行音轨分离，提高了分离音轨的工作效率。

附图说明

图1为本发明实施例中基于佛乐的音轨分离方法的一个实施例示意图；

图2为本发明实施例中基于佛乐的音轨分离方法的另一个实施例示意图；

图3为本发明实施例中基于佛乐的音轨分离装置的一个实施例示意图；

图4为本发明实施例中基于佛乐的音轨分离装置的另一个实施例示意图；

图5为本发明实施例中基于佛乐的音轨分离设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于佛乐的音轨分离方法、装置、设备及存储介质，用于提高分离音轨的灵活性和分离音轨的工作效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于佛乐的音轨分离方法的一个实施例包括：

101、获取音乐数据，并将音乐数据拆分为多个时段音乐数据，音乐数据为佛乐数据；

服务器获取为佛乐数据的音乐数据，然后将该音乐数据拆分为多个时段音乐数据。

需要说明的是，由于本发明分离音轨时用到的神经网络为时序神经网络，因此按照时段将音乐数据拆分为多个时段音乐数据。佛乐数据中有几种经常出现的乐器，分别为木鱼、鼓、钟、古筝以及其他乐器，将这几种经常出现的乐器再结合人声，就形成六个组成部分，本发明主要是获取一段佛学音乐，服务器按照这六种组成部分进行音轨分离，最后得到六种音乐音轨，每种音乐供用户重新歌唱佛乐或者乐器演奏练习。

可以理解的是，本发明的执行主体可以为基于佛乐的音轨分离装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、将音乐数据输入预置的权重参数生成器，得到多个参数权重；

服务器将音乐数据输入预置的权重参数生成器中，得到多个参数权重。

需要说明的是，在后面多次卷积的过程中，对于每一次卷积来说，每个参数权重都是共享的，参数权重的作用是表示与佛乐数据相关的乐器与人声之间的关系表示，例如一段佛乐数据中，用到古筝的部分较多，那么古筝的参数权重就大一些，古筝与人声的关系表示也更加紧密一些。在后面多次卷积的过程中，多个参数权重还能够使得卷积与卷积之间进行关联。

103、将多个参数权重和多个时段音乐数据输入预置的提取器模型中，结合每个时段音乐数据的分辨率进行音轨分离，生成多个音乐音轨组，每个音乐音轨组包括多种类型音轨，提取器包括线性编码器、膨胀神经网络和解码器；

服务器按照时段音乐数据的时段的高低顺序依次将多个时段音乐数据输入预置的提取器模型中，并在该提取器模型中结合多个参数权重和每个时段音乐数据的分辨率进行音轨分离，生成多个包括多种类型音轨的音乐音轨组。

需要说明的是，该提取器模型采用的是时序神经网络进行卷积，在卷积的过程中，下一层时刻的卷积过程，需要用到上一层时刻的结果，所以需要按照时段从低到高的顺序依次将多个时段音乐数据输入预置的提取器模型中进行音轨分离。

在提取器模型中进行音轨分离主要包括三个阶段，第一阶段是对多个时段音乐数据进行编码的阶段、第二阶段是对编码结果进行卷积的阶段，第三阶段是对卷积结果进行解码的阶段，解码的结果为多个音乐音轨组，一个音乐音轨组中包括木鱼、鼓、钟、古筝、其他乐器和人声当中的任意几种音轨。

104、按照多种类型音轨，对多个音乐音轨组进行整合，得到多个目标完整音轨。

服务器按照多种类型音轨，将多个音乐音轨组整合为多个目标完整音轨。

具体的，从每个音乐音轨组中提取对应的第一类型音轨，得到多个第一类型音轨，并将多个第一类型音轨进行整合，得到第一目标完整音轨；从每个音乐音轨组中提取对应的第二类型音轨，得到多个第二类型音轨，并将多个第二类型音轨进行整合，得到第二目标完整音轨；从每个音乐音轨组中提取对应的第三类型音轨，得到多个第三类型音轨，并将多个第三类型音轨进行整合，得到第三目标完整音轨；从每个音乐音轨组中提取对应的第四类型音轨，得到多个第四类型音轨，并将多个第四类型音轨进行整合，得到第四目标完整音轨；从每个音乐音轨组中提取对应的第五类型音轨，得到多个第五类型音轨，并将多个第五类型音轨进行整合，得到第五目标完整音轨；从每个音乐音轨组中提取对应的第六类型音轨，得到多个第六类型音轨，并将多个第六类型音轨进行整合，得到第六目标完整音轨。

在本实施例中，第一目标完整音轨、第二目标完整音轨、第三目标完整音轨、第四目标完整音轨、第五目标完整音轨和第六目标完整音轨分别为木鱼的完整音轨、鼓的完整音轨、钟的完整音轨、古筝的完整音轨、其他乐器的完整音轨和人声的完整音轨。

本发明实施例中，基于音乐数据生成多个参数权重，实现了特定乐器的参数化，从而提高了提取器模型在分离音轨时的灵活性；而且结合线性编码器采用多时段多分辨率的方式进行音轨分离，提高了分离音轨的工作效率。

请参阅图2，本发明实施例中基于佛乐的音轨分离方法的另一个实施例包括：

201、获取音乐数据，并将音乐数据拆分为多个时段音乐数据，音乐数据为佛乐数据。

服务器获取为佛乐数据的音乐数据，然后将该音乐数据拆分为多个时段音乐数据。

具体的，服务器获取音乐数据，音乐数据为佛乐数据；服务器从音乐数据中读取多个时刻参数，并对多个时刻参数进行划分，得到多个时段；服务器按照每个时段对音乐数据进行拆分，得到多个时段音乐数据。

服务器从音乐数据中读取多个时刻参数，例如1秒，2秒，……，36秒，服务器按照时段阈值将多个时刻参数进行划分，例如，参数时段阈值为12，则服务器以每12秒为一个时段，服务器按照12秒的时段对该音乐数据进行炒粉，得到3个时段音乐数据。

202、将音乐数据输入预置的权重参数生成器，得到多个参数权重；

服务器将音乐数据输入预置的权重参数生成器中，得到多个参数权重。

具体的，服务器对音乐数据进行特征提取，得到音乐特征向量；服务器将音乐特征向量输入预置的权重参数生成器网络中，得到多个参数权重，多个参数权重用于表示音乐数据中的多个乐器与人声之间的关系表示。

服务器从音乐数据中提取特征，得到音乐特征向量，在本实施例中采用one-hot编码的方法提取特征向量，然后将该特征向量输入预置的权重参数生成网络中进行参数处理，生成多个参数权重。

203、将多个时段音乐数据依次输入预置的提取器模型的线性编码器中，并结合权重参数和每个时段音乐数据，生成多个频率待卷积向量；

服务器将多个时段音乐数据按照从低到高的顺序将多个时段音乐数据依次输入预置的线性编码器中，并结合权重参数和每个时段音乐数据，生成多个频率待卷积向量。

具体的，服务器对每个时段音乐数据进行特征提取，得到多个时段音乐特征向量，提取多个时段音乐特征向量采用的是one-hot编码的方法；服务器将每个时段音乐特征向量按照从低到高的时段顺序依次输入预置的提取器模型的线性编码器中，在预置的一维多内核卷积层中，对每个时段音乐特征向量进行卷积，得到多个一维卷积向量，多内核能够获取更宽的音乐频率范围以及保持音乐更高的保真度，；服务器结合预置的短时傅里叶变换(short-time Fourier transform，STFT)谱图依次对多个一维卷积向量进行归一化，得到多个频率归一化卷积向量；服务器对多个频率归一化卷积向量进行线性变换，得到多个线性变换后的卷积向量；服务器将每个线性变换后的卷积向量与权重参数进行合并，得到多个频率待卷积向量。

结合预置的STFT谱图对多个一维卷积向量归一化的具体过程为：

服务器首先采用STFT谱图的窗函数对每个一维卷积向量截取音乐信号，然后采用STFT分析该音乐信号，得到多个频率，然后沿着该音乐信号的时刻移动窗函数，得到时频分布；最后对视频分布进行归一化，得到多个频率归一化卷积向量。

需要说明的是，一维卷积向量、频率归一化卷积向、线性变换后的卷积向量以及频率待卷积向量的数量相同。

204、根据提取器模型中的膨胀神经网络对多个频率待卷积向量依次进行卷积，得到多个膨胀卷积向量；

需要说明的是，膨胀神经网络为一种时间卷积网络，该卷积网络的特性是在卷积的过程中，下一层时刻的时间卷积，需要用到上一层时刻的时间卷积结果，所以需要按照时段从低到高的顺序依次将多个时段音乐数据输入预置的膨胀神经网络中进行卷积。膨胀神经网络不受卷积核大小的影响，不受堆叠很多卷积层的影响，允许在卷积时进行间隔采样，例如1s到12s之间有12个采样点，膨胀神经网络可以将这12个采样点的频率待卷积向量作为一个整体进行卷积。

服务器从多个频率待卷积向量中读取多个分辨率，并多个分辨率分别对多个待卷积向量进行排序，得到多个分辨率待卷积向量序列，排序为从低到高的顺序；其次服务器采用预置的膨胀卷积神经网络，结合从低到高的时段顺序对每个分辨率待卷积向量序列进行膨胀卷积，得到第一膨胀卷积向量；服务器采用膨胀卷积神经网络，结合第一膨胀卷积向量和从低到高的时段顺序对每个分辨率待卷积向量序列进行膨胀卷积，得到第二膨胀卷积向量；服务器按照上述步骤对其他分辨率待卷积向量进行膨胀卷积，得到其他膨胀卷积向量；服务器整合第一膨胀卷积向量、第二膨胀卷积向量和其他膨胀卷积向量，得到多个膨胀卷积向量。

对多个时段待卷积向量中的多个分辨率进行排序的目的是使膨胀卷积神经网络从分辨率较低的待卷积向量开始进行卷积。然后在后面的膨胀神经网络的每一层卷积中依次迭代向每个分辨率待卷积向量序列中频率较高的待卷积向量进行采样，在每一个卷积层中，采样率、步长和输出大小也会按照比例增加，这样就完成了一个分辨率待卷积向量序列的卷积，得到第一膨胀卷积向量。然后按照从低到高的时段顺序将上一个时段得到的膨胀卷积向量与当前的分辨率待卷积向量序列作为下一个时段膨胀卷积神经网络的输入，从而得到多个膨胀卷积向量。

205、根据提取器模型中的解码器对多个膨胀卷积向量依次进行解码，得到多个音乐音轨组，每个音乐音轨组包括多种类型音轨，提取器包括线性编码器、膨胀神经网络和解码器；

服务器对多个膨胀卷积向量依次进行解码，得到多个包括多种类型音轨的音乐音轨组。

服务器从每个膨胀卷积向量中读取对应的向量维度：服务器将每个膨胀卷积向量输入提取器模型的解码中，采用预置的一维深度神经卷积网络，按照目标向量维度对对应的膨胀卷积向量进行解码，生成多个初始音乐音轨组和对应的音乐音轨概率组；服务器基于多个初始概率音乐音轨组和对应的音乐音轨概率组，得到多个音乐音轨组，每个音乐音轨组包括多种类型音轨，提取器包括线性编码器、膨胀神经网络和解码器。

需要说明的是，服务器除了从膨胀卷积向量中读取向量维度外，还需要从频率待卷积向量中读取参考向量维度；假设向量维度为n，参考向量维度为m，服务器在解码的最后，需要将向量维度n还原为参考向量维度m。

服务器在初始音乐音轨组中基于每个对应的音乐音轨概率组，确定概率最大的音乐音轨为目标音乐音轨，从而得到一个时段音乐数据对应的音乐音轨。服务器针对其他时段音乐数据也进行相同的计算，从而得到多个音乐音轨组。

206、按照多种类型音轨，对多个音乐音轨组进行整合，得到多个目标完整音轨。

服务器按照多种类型音轨，将多个音乐音轨组整合为多个目标完整音轨。

上面对本发明实施例中基于佛乐的音轨分离方法进行了描述，下面对本发明实施例中基于佛乐的音轨分离装置进行描述，请参阅图3，本发明实施例中基于佛乐的音轨分离装置一个实施例包括：

获取模块301，用于获取音乐数据，并将音乐数据拆分为多个时段音乐数据，音乐数据为佛乐数据；

权重参数生成模块302，用于将音乐数据输入预置的权重参数生成器，得到多个参数权重；

音轨分离模块303，用于将多个参数权重和多个时段音乐数据输入预置的提取器模型中，结合每个时段音乐数据的分辨率进行音轨分离，生成多个音乐音轨组，每个音乐音轨组包括多种类型音轨，提取器包括线性编码器、膨胀神经网络和解码器；

整合模块304，用于按照多种类型音轨，对多个音乐音轨组进行整合，得到多个目标完整音轨。

请参阅图4，本发明实施例中基于佛乐的音轨分离装置的另一个实施例包括：

获取模块301，用于获取音乐数据，并将所述音乐数据拆分为多个时段音乐数据，所述音乐数据为佛乐数据；

权重参数生成模块302，用于将所述音乐数据输入预置的权重参数生成器，得到多个参数权重；

音轨分离模块303，用于将所述多个参数权重和所述多个时段音乐数据输入预置的提取器模型中，结合每个时段音乐数据的分辨率进行音轨分离，生成多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器；

整合模块304，用于按照多种类型音轨，对多个音乐音轨组进行整合，得到多个目标完整音轨。

可选的，获取模块301还可以具体用于：

获取音乐数据，所述音乐数据为佛乐数据；

从所述音乐数据中读取多个时刻参数，并对所述多个时刻参数进行划分，得到多个时段；

按照每个时段对所述音乐数据进行拆分，得到多个时段音乐数据。

可选的，权重参数生成模块302还可以具体用于：

对所述音乐数据进行特征提取，得到音乐特征向量；

将所述音乐特征向量输入预置的权重参数生成器网络中，得到多个参数权重，所述多个参数权重用于表示音乐数据中的多个乐器与人声之间的关系表示。

可选的，音轨分离模块303包括：

编码单元3031，用于将所述多个时段音乐数据依次输入预置的提取器模型的线性编码器中，并结合所述权重参数和每个时段音乐数据，生成多个频率待卷积向量；

卷积单元3032，用于根据所述提取器模型中的膨胀神经网络对所述多个频率待卷积向量依次进行卷积，得到多个膨胀卷积向量；

解码单元3033，用于根据所述提取器模型中的解码器对所述多个膨胀卷积向量依次进行解码，得到多个音乐音轨组。

可选的，编码单元3031还可以具体用于：

对每个时段音乐数据进行特征提取，得到多个时段音乐特征向量；

将每个时段音乐特征向量依次输入预置的提取器模型的线性编码器中，在预置的一维多内核卷积层中，对每个时段音乐特征向量进行卷积，得到多个一维卷积向量；

结合预置的短时傅里叶变换谱图依次对所述多个一维卷积向量进行归一化，得到多个频率归一化卷积向量；

对所述多个频率归一化卷积向量进行线性变换，得到多个线性变换后的卷积向量；

将每个线性变换后的卷积向量与所述权重参数进行合并，得到多个频率待卷积向量。

可选的，卷积单元3032还可以具体用于：

从所述多个频率待卷积向量中读取多个分辨率，并所述多个分辨率分别对多个待卷积向量进行排序，得到多个分辨率待卷积向量序列，排序为从低到高的顺序；

采用预置的膨胀卷积神经网络，结合从低到高的时段顺序对每个分辨率待卷积向量序列进行膨胀卷积，得到第一膨胀卷积向量；

采用所述膨胀卷积神经网络，结合所述第一膨胀卷积向量和从低到高的时段顺序对每个分辨率待卷积向量序列进行膨胀卷积，得到第二膨胀卷积向量；

按照上述步骤对其他分辨率待卷积向量进行膨胀卷积，得到其他膨胀卷积向量；

整合所述第一膨胀卷积向量、所述第二膨胀卷积向量和所述其他膨胀卷积向量，得到多个膨胀卷积向量。

可选的，解码单元3033还可以具体用于：

从每个膨胀卷积向量中读取对应的向量维度：

将每个膨胀卷积向量输入所述提取器模型的解码中，采用预置的一维深度神经卷积网络，按照目标向量维度对对应的膨胀卷积向量进行解码，生成多个初始音乐音轨组和对应的音乐音轨概率组；

基于所述多个初始概率音乐音轨组和对应的音乐音轨概率组，得到多个音乐音轨组，每个音乐音轨组包括多种类型音轨，所述提取器包括线性编码器、膨胀神经网络和解码器。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于佛乐的音轨分离装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于佛乐的音轨分离设备进行详细描述。

图5是本发明实施例提供的一种基于佛乐的音轨分离设备的结构示意图，该基于佛乐的音轨分离设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于佛乐的音轨分离设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在基于佛乐的音轨分离设备500上执行存储介质530中的一系列指令操作。

基于佛乐的音轨分离设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于佛乐的音轨分离设备结构并不构成对基于佛乐的音轨分离设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

进一步地，所述计算机可用存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于佛乐的音轨分离方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于佛乐的音轨分离方法、装置、设备及存储介质 [P] . 中国专利： CN113012667A . 2021-06-22
2. 基于注意力模型的佛乐生成方法、装置、设备及存储介质 [P] . 中国专利： CN112951239A . 2021-06-11
3. Printing medium separation apparatus, printing medium separation program, storage medium storing the program, printing medium seperation method, printing device, printing device control program, storage medium storing the program, and printing device control method [P] . 美国专利： US7782508B2 . 2010-08-24

机译：打印介质分离装置，打印介质分离程序，存储该程序的存储介质，打印介质分离方法，打印设备，打印设备控制程序，存储该程序的存储介质以及打印设备控制方法
4. PRINTING MEDIUM SEPARATION APPARATUS, PRINTING MEDIUM SEPARATION PROGRAM, STORAGE MEDIUM STORING THE PROGRAM, PRINTING MEDIUM SEPARATION METHOD, PRINTING DEVICE, PRINTING DEVICE CONTROL PROGRAM, STORAGE MEDIUM STORING THE PROGRAM, AND PRINTING DEVICE CONTROL METHOD [P] . 美国专利： US2008088861A1 . 2008-04-17

机译：打印介质分离装置，打印介质分离程序，存储介质存储程序，打印介质分离方法，打印设备，打印设备控制程序，存储介质存储程序和打印设备控制方法
5. Separating execution method of executable contents, device for forming separating execution based executable contents, and storage media recorded separating execution based executable contents [P] . 韩国专利： KR101525402B1 . 2015-06-08

机译：可执行内容的分离执行方法，用于形成基于分离执行的可执行内容的装置，以及记录的存储介质，用于分离基于执行的可执行内容