首页> 中国专利> 基于神经网络的佛教音乐记谱方法、装置、设备及介质

基于神经网络的佛教音乐记谱方法、装置、设备及介质

摘要

本发明用于人工智能领域,涉及区块链领域,公开了一种基于神经网络的佛教音乐记谱方法、装置、设备及介质,其中方法部分包括:获取需要转为乐谱的原始佛教音频数据,并转换为时频谱矩阵,获取包括音高识别模型的音高识别网络结构,获取包括唱词识别模型的唱词识别网络结构,将时频谱矩阵分别输入音高识别网络结构、唱词识别网络结构,以获得原始佛教音频数据的音高识别数据和唱词识别数据,根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱;本发明利用迁移学习技术,以预训练的音高识别模型和语音转文字模型作为基础,能自动识别出佛教音频的旋律和唱词以获得简谱,降低了佛教音乐记谱的时间成本,提高了佛教音乐记谱的效率。

著录项

  • 公开/公告号CN113112969A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202110308570.7

  • 发明设计人 刘奡智;韩宝强;肖京;

    申请日2021-03-23

  • 分类号G10G3/04(20060101);G10L15/02(20060101);G10L15/06(20130101);G10L15/16(20060101);

  • 代理机构44325 深圳众鼎专利商标代理事务所(普通合伙);

  • 代理人谭果林

  • 地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本发明涉及人工智能领域,尤其涉及一种基于神经网络的佛教音乐记谱方法、装置、设备及介质。

背景技术

佛教音乐的采风和记谱工作对佛教文化的保留和传承有着重要意义。由于佛教音乐用词的特殊性和音乐学上的特征,目前在流行音乐和西方古典乐领域内有一些被实用化的自动记谱系统,在对佛教音乐进行识别记谱时,准确率较低,导致自动记谱系统的难以被应用于佛教音乐领域中。

因此,在采风获得佛教音乐之后,对佛教音乐的记谱主要依靠人工完成,人工记谱的过程重复工作较多,且记谱人员需要较为具有较高的佛学知识水平和音乐水平。一位熟练掌握音乐知识和佛教相关文化的学者,往往要花几个月的时间才能完成一两百张乐谱的记录,耗费大量的精力和时间,记谱成本较高、记谱效率低。

发明内容

本发明提供一种基于神经网络的佛教音乐记谱方法、装置、设备及介质,以解决现有技术中,佛教音乐的记谱工作依赖于人工记谱,导致记谱成本较高、记谱效率低的问题。

一种基于神经网络的佛教音乐记谱方法,包括:

获取需要转为乐谱的原始佛教音频数据,并将所述原始佛教音频数据转换为时频谱矩阵,所述原始佛教音频数据包括佛教音频的音乐旋律和唱词;

获取包括音高识别模型的音高识别网络结构,所述音高识别模型为将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型;

获取包括唱词识别模型的唱词识别网络结构,所述唱词识别模型为将预训练的语音转文字模型迁移学习后形成的神经网络识别模型;

将所述时频谱矩阵输入所述音高识别网络结构,获得所述原始佛教音频数据的音高识别数据;

将所述时频谱矩阵输入所述唱词识别网络结构,获得所述原始佛教音频数据的唱词识别数据;

根据所述音高识别数据与所述唱词识别数据生成所述原始佛教音频数据的简谱。

进一步地,所述根据所述音高识别数据与所述唱词识别数据生成所述原始佛教音频数据的简谱,包括:

确定所述音高识别数据中每一帧的音高,并确定所述唱词识别数据中每一帧的唱词;

将每一帧的所述音高与所述唱词进行对应连接,获得所述原始佛教音频数据的初始数据;

采用节拍器对所述初始数据进行节拍量化,以生成所述初始数据的简谱。

进一步地,所述根据所述音高识别数据与所述唱词识别数据生成所述原始佛教音频数据的简谱之后,所述方法还包括:

将所述简谱的格式转换为MusicXML格式;

获取所述佛教音乐专家对所述MusicXML格式的简谱的人工校对结果;

根据所述人工校对结果更新所述简谱。

进一步地,所述将所述原始佛教音频数据转换为时频谱矩阵,包括:

确定对所述原始佛教音频数据进行转换的窗函数为汉宁窗函数;

根据所述汉宁窗函数对所述原始佛教音频数据进行短时傅里叶变换,以获得所述时频谱矩阵。

进一步地,所述时频谱矩阵的计算公式如下:

其中,X(m,ω)为所述时频谱矩阵,n为所述原始佛教音频数据的信号,x[n]为所述原始佛教音频数据的信号输入序列,w[n]为汉宁窗函数,m为所述原始佛教音频数据的时间帧序数,ω为所述原始佛教音频数据的数字频率序数,N为所述原始佛教音频数据的帧长度。

一种基于神经网络的佛教音乐记谱装置,包括:

转换模块,用于获取需要转为乐谱的原始佛教音频数据,并将所述原始佛教音频数据转换为时频谱矩阵,所述原始佛教音频数据包括佛教音频的音乐旋律和唱词;

第一获取模块,用于获取包括音高识别模型的音高识别网络结构,所述音高识别模型为将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型;

第二获取模块,用于获取包括唱词识别模型的唱词识别网络结构,所述唱词识别模型为将预训练的语音转文字模型迁移学习后形成的神经网络识别模型;

第一输入模块,用于将所述时频谱矩阵输入所述音高识别网络结构,获得所述原始佛教音频数据的音高识别数据;

第二输入模块,用于将所述时频谱矩阵输入所述唱词识别网络结构,获得所述原始佛教音频数据的唱词识别数据;

生成模块,用于根据所述音高识别数据与所述唱词识别数据生成所述原始佛教音频数据的简谱。

进一步地,所述模块具体用于:

确定所述音高识别数据中每一帧的音高,并确定所述唱词识别数据中每一帧的唱词;

将每一帧的所述音高与所述唱词进行对应连接,获得所述原始佛教音频数据的初始数据;

采用节拍器对所述初始数据进行节拍量化,以生成所述初始数据的简谱。

进一步地,所述转换模块具体用于:

确定对所述原始佛教音频数据进行转换的窗函数为汉宁窗函数;

根据所述汉宁窗函数对所述原始佛教音频数据进行短时傅里叶变换,以获得所述时频谱矩阵。

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于神经网络的佛教音乐记谱方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于神经网络的佛教音乐记谱方法的步骤。

上述基于神经网络的佛教音乐记谱方法、装置、设备及介质所提供的一个方案中,通过获取需要转为乐谱的原始佛教音频数据,并将原始佛教音频数据转换为时频谱矩阵,原始佛教音频数据包括佛教音频的音乐旋律和唱词,获取包括音高识别模型的音高识别网络结构,音高识别模型为将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型,获取包括唱词识别模型的唱词识别网络结构,唱词识别模型为将预训练的语音转文字模型迁移学习后形成的神经网络识别模型,然后将时频谱矩阵输入音高识别网络结构,获得原始佛教音频数据的音高识别数据,并将时频谱矩阵输入唱词识别网络结构,获得原始佛教音频数据的唱词识别数据,最后根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱;本发明中,将原始佛教音频数据转换为时频谱矩阵后,利用迁移学习技术,以预训练的音高识别模型和语音转文字模型作为基础,能够自动识别出佛教音频所对应的旋律和唱词,进而获得佛教音频的简谱,降低了佛教音乐记谱的时间成本,提高了佛教音乐记谱的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于神经网络的佛教音乐记谱方法的一应用环境示意图;

图2是本发明一实施例中基于神经网络的佛教音乐记谱方法的一流程示意图;

图3是本发明一实施例中通过音高识别网络结构和唱词识别网络结构生成简谱的流程示意图;

图4是本发明一实施例中基于神经网络的佛教音乐记谱方法的另一流程示意图;

图5是图2中步骤S60的一实现流程示意图;

图6是图2中步骤S10的一实现流程示意图;

图7是本发明一实施例中基于神经网络的佛教音乐记谱装置的一示意图;

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的基于神经网络的佛教音乐记谱方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。用户通过终端设备将需要转为乐谱的原始佛教音频数据发送至服务器,服务器获取包括佛教音频的音乐旋律和唱词的原始佛教音频数据之后,将原始佛教音频数据转换为时频谱矩阵,获取包括音高识别模型的音高识别网络结构,音高识别模型为将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型,获取包括唱词识别模型的唱词识别网络结构,唱词识别模型为将预训练的语音转文字模型迁移学习后形成的神经网络识别模型,然后将时频谱矩阵输入音高识别网络结构,获得原始佛教音频数据的音高识别数据,并将时频谱矩阵输入唱词识别网络结构,获得原始佛教音频数据的唱词识别数据,最后根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱;以预训练的音高识别模型和语音转文字模型作为基础,能够自动识别出佛教音频所对应的旋律和唱词,进而获得佛教音频的简谱,实现了人工智能+神经网络的佛教音乐自动记谱过程,从而降低了佛教音乐记谱的时间成本,并提高了佛教音乐记谱的效率。

其中,基于神经网络的佛教音乐记谱方法用到或者的相关数据存储在服务器的数据库中,本实施例中的数据库为存储于区块链网络中的区块链数据库,用于存储实现基于神经网络的佛教音乐记谱方法所用到、生成的数据,如原始佛教音频数据、时频谱矩阵、音高识别数据、唱词识别数据和简谱等相关数据。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。将数据库部署于区块链可提高数据存储的安全性。

其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中,如图2所示,提供一种基于神经网络的佛教音乐记谱方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:

S10:获取需要转为乐谱的原始佛教音频数据,并将原始佛教音频数据转换为时频谱矩阵,原始佛教音频数据包括佛教音频的音乐旋律和唱词。

用户在获得原始佛教音频数据之后,将需要转为乐谱的原始佛教音频数据通过终端设备发送至服务器,服务器接收到需要转为乐谱的原始佛教音频数据之后,将原始佛教音频数据转换为时频谱矩阵,即将声音信号转换为数字信号,以便后续进行识别。其中,原始佛教音频数据包括佛教音频的音乐旋律和唱词,以便后续将将原始佛教音频数据翻译成带有唱词信息的乐谱。

S20:获取包括音高识别模型的音高识别网络结构,音高识别模型为将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型。

服务器在接收到原始佛教音频数据之后,需要获取包括音高识别模型的音高识别网络结构,以采用音高识别网络结构识别原始佛教音频数据中的唱音高信息。其中,音高识别网络结构的音高识别模型,是将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型。

S30:获取包括唱词识别模型的唱词识别网络结构,唱词识别模型为将预训练的语音转文字模型迁移学习后形成的神经网络识别模型。

服务器在接收到原始佛教音频数据之后,还需要获取包括唱词识别模型的唱词识别网络结构,以采用唱词识别网络结构识别原始佛教音频数据中的唱词信息。其中,唱词识别模型为将预训练的语音转文字(Speech To Text)模型迁移学习后形成的神经网络识别模型。

S40:将时频谱矩阵输入音高识别网络结构,获得原始佛教音频数据的音高识别数据。

在将原始佛教音频数据转换为时频谱矩阵,并获得音高识别网络结构之后,将转换后的时频谱矩阵输入音高识别网络结构,以对时频谱矩阵进行音符识别,接收音高识别网络结构输出的音符信息,获得原始佛教音频数据的音高识别数据。

S50:将时频谱矩阵输入唱词识别网络结构,获得原始佛教音频数据的唱词识别数据。

在将原始佛教音频数据转换为时频谱矩阵,并获得唱词识别网络结构之后,还需要将时频谱矩阵输入唱词识别网络结构,以对时频谱矩阵进行音符识别,接收唱词识别网络结构输出的唱词信息,获得原始佛教音频数据的唱词识别数据。

其中,音高识别网络结构包括音高识别模型和两个全连接层,为了保证音高识别网络结构的拟合效果,在音高识别模型之后需要增加两个维度依次降低的全连接层;为了保证唱词识别网络结构的拟合效果,也需要在唱词识别模型之后需要增加两个维度依次降低的全连接层。其中,由于音符比常用字少,所以,音高识别网络结构中两个全连接层的维度要少于唱词识别网络结构中两个全连接层的维度。

例如,音高识别网络结构、唱词识别网络结构的结构图如图3所示:

音高识别模型可以采用基于卷积神经网络(CNN)结构,并使用AudioSet数据集进行训练的VGGish预训练模型,预训练模型中的网络结构和参数不变,VGGish预训练模型包括12个卷积层和4个池化层,在最后一个池化层后连接有增加了两个维度分别为1024和180的全连接层。唱词识别模型采用Deep Speech2的循环神经网络(RNN)与卷积神经网络(CNN)的预训练混合模型,预训练模型中的网络结构和参数不变,预训练混合模型包括4个卷积层,循环神经网络位于第3个卷积层与第4个卷积层之间,循环神经网络包括多组门控循环单元(Gated Recurrent Units,GRU),在第四个卷积层后连接有两个维度分别为2048和360的全连接层。其中,音高识别网络结构可以输出180维的概率分布,对应C4至B6三个八度共36个音符,输出音符标签时,以20音分间隔识别出的音符,保证音高识别数据的准确性;唱词识别网络结构可以输出360维的概率分布,对应360个佛教音乐常用字标签,每个标签对应到预先定义的佛教音乐唱词词库中的一个单字。

在获得原始佛教音频数据,并将原始佛教音频数据转换为时频谱矩阵之后,将时频谱矩阵分别输入VGGish预训练模型和预训练混合模型,VGGish预训练模型对时频谱矩阵进行多次卷积和池化处理后,将识别特征输入至维度为1024的全连接层,然后输入至维度为180的全连接层,以对识别特征进行分类处理,并在最后使用Softmax函数进行归一化处理,最后输出音高识别数据;预训练混合模型对时频谱矩阵进行3次卷积后,进入循环神经网络,循环神经网络输出后再进行1次卷积处理,然后将处理结果依次输入不同维度的全连接层进行分类处理,并在最后使用Softmax函数对识别结果进行归一化处理,最后输出唱词识别数据,将输出的音高识别数据和唱词识别数据进行对应连接,获得原始佛教音频数据的简谱。

本实施例中,音高识别模型和唱词识别模型的结构仅为示例性说明,在其他实施例中,音高识别模型和唱词识别模型还可以是其他结构的神经网络模型,在此不再赘述。

本实施例中,音高识别网络结构和唱词识别网络结构中全连接层的维度仅为示例性说明,在其他实施例中,全连接层的维度还可以是其他,在此不再赘述。

此外,在训练音高识别网络结构和唱词识别网络结构时,对音高识别网络结构和唱词识别网络结构的输出分别计算其交叉熵函数(Cross Entropy)作为损失函数,并用梯度下降反向传播分别更新两个全连接层中的参数,以提高训练速度和识别效果。

S60:根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱。

在获得原始佛教音频数据的音高识别数据和唱词识别数据之后,根据原始佛教音频数据的每一帧信号,将音高识别数据与唱词识别数据对应,从而生成原始佛教音频数据的简谱,服务器将生成的简谱输出至终端设备,以便用户查阅简谱。

通过将预训练的音高识别模型和语音转文字模型进行迁移学习,生成音高识别网络结构和唱词识别网络结构,使用少量的佛教音乐样本即可完成相对高准确率的自动记谱模型训练,通过网络结构模型识别出原始佛教音频数据的音高识别数据和唱词识别数据,进而生成简谱,可代替佛教音乐学者完成记谱工作中重复繁杂的音乐旋律和唱词识别部分,提升了佛教音乐的记谱效率,为佛教传统文化的保留与传承做出贡献。

本实施例中,通过获取需要转为乐谱的原始佛教音频数据,并将原始佛教音频数据转换为时频谱矩阵,原始佛教音频数据包括佛教音频的音乐旋律和唱词,获取包括音高识别模型的音高识别网络结构,音高识别模型为将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型,获取包括唱词识别模型的唱词识别网络结构,唱词识别模型为将预训练的语音转文字模型迁移学习后形成的神经网络识别模型,然后将时频谱矩阵输入音高识别网络结构,获得原始佛教音频数据的音高识别数据,并将时频谱矩阵输入唱词识别网络结构,获得原始佛教音频数据的唱词识别数据,最后根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱;将原始佛教音频数据转换为时频谱矩阵后,利用迁移学习技术,以预训练的音高识别模型和语音转文字模型作为基础,能够自动识别出佛教音频所对应的旋律和唱词,进而获得佛教音频的简谱,降低了佛教音乐记谱的时间成本,提高了佛教音乐记谱的效率。

在一实施例中,如图4所示,步骤S60之后,即根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱之后,所述方法还具体包括如下步骤:

S71:将简谱的格式转换为MusicXML格式。

在根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱之后,将简谱的格式转换为MusicXML格式,输出MusicXML格式的简谱,以便佛教音乐专家对MusicXML格式的简谱进行人工校对和修改。

S72:获取佛教音乐专家对MusicXML格式的简谱的人工校对结果。

在佛教音乐专家对MusicXML格式的简谱进行人工校对和修改之后,获取佛教音乐专家对MusicXML格式的简谱的人工校对结果。

S73:根据人工校对结果更新简谱。

在获取佛教音乐专家对Music XML格式的简谱的人工校对结果之后,根据人工校对结果更新简谱,最终作为原始佛教音频数据对应乐谱的成品,保证乐谱的准确性,便于后续保持该乐谱、使用该乐谱。

本实施例中,根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱之后,通过将简谱的格式转换为MusicXML格式,获取佛教音乐专家对MusicXML格式的简谱的人工校对结果,进而根据人工校对结果更新简谱,从而输出原始佛教音频数据对应的乐谱,通过将带有唱词信息的简谱输出为MusicXML格式,便于佛教音乐专家对MusicXML格式的简谱进行人工校验和修改,进而更新简谱获得乐谱,进一步提高了乐谱的准确性。

在一实施例中,如图5所示,步骤S60中,即根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱,具体包括如下步骤:

S61:确定音高识别数据中每一帧的音高,并确定唱词识别数据中每一帧的唱词。

S62:将每一帧的音高与唱词进行对应连接,获得原始佛教音频数据的初始数据。

在获取音高识别数据与唱词识别数据之后,将音高识别数据中每一帧的音高与唱词识别数据中每一帧的唱词进行对应连接,获得原始佛教音频数据的初始数据。

例如,音高识别数据中第一帧对应的音高为C4,而唱词识别数据中第一帧对应的唱词为善,则将C4于善对应连接,依次连接每一帧的音高和唱词,获得音高和唱词对应的初始数据。

本实施例中,音高识别数据中第一帧对应的音高为C4,而唱词识别数据中第一帧对应的唱词为善仅为示例性说明,在其他实施例中,音高识别数据中第一帧和唱词识别数据中第一帧还可以是其他,在此不再赘述。

S63:采用节拍器对初始数据进行节拍量化,以生成初始数据的简谱。

在获得音高和唱词对应的初始数据之后,采用节拍器对初始数据的拍子数进行检测,然后按照初始数据的拍子数进行节拍量化,最后生成带有唱词信息的简谱,并输出至终端设备。

本实施例中,通过确定音高识别数据中每一帧的音高,并确定唱词识别数据中每一帧的唱词,然后将每一帧的音高与唱词进行对应连接,获得原始佛教音频数据的初始数据,最后采用节拍器对初始数据进行节拍量化,以生成初始数据的简谱,细化了根据音高识别数据与唱词识别数据生成原始佛教音频数据的简谱的具体步骤,为简谱的生成提供了基础。

在一实施例中,如图6所示,步骤S10中,即将原始佛教音频数据转换为时频谱矩阵,具体包括如下步骤:

S11:确定对原始佛教音频数据进行转换的窗函数为汉宁窗函数。

在获得原始佛教音频数据之后,需要确定窗函数,进而根据窗函数将原始佛教音频数据进行截取,以转换为时频谱矩阵,以减少转换过程中数据泄漏。本实施例中的窗函数为比较光滑的汉宁窗函数,以保证转换后的时频谱矩阵更加接近原始佛教音频数据的真实频谱。

S12:根据汉宁窗函数对原始佛教音频数据进行短时傅里叶变换,以获得时频谱矩阵。

在确定窗函数为汉宁窗函数之后,根据汉宁窗函数对原始佛教音频数据进行短时傅里叶变换,以获得时频谱矩阵。采用短时傅里叶变换的方式对原始佛教音频数据进行转换,不会损失原始佛教音频数据中信号的幅值与相位信息,使得获得时频谱矩阵具有清晰的瞬时频率和延时,便于后续进行模型特征识别。

其中,根据汉宁窗函数对原始佛教音频数据进行短时傅里叶变换,以获得时频谱矩阵,时频谱矩阵的计算公式如下:

其中,X(m,ω)为时频谱矩阵,n为原始佛教音频数据的信号,x[n]为原始佛教音频数据的信号输入序列,w[n]为汉宁窗函数,m为原始佛教音频数据的时间帧序数,ω为原始佛教音频数据的数字频率序数,N为原始佛教音频数据的帧长度。

本实施例中,通过确定对原始佛教音频数据进行转换的窗函数为汉宁窗函数,根据汉宁窗函数对原始佛教音频数据进行短时傅里叶变换,以获得时频谱矩阵,细化了将原始佛教音频数据转换为时频谱矩阵的步骤,通过采用汉宁窗函数对原始佛教音频数据进行短时傅里叶变换,降低频谱泄露的可能,并减少高频干扰。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在一实施例中,提供一种基于神经网络的佛教音乐记谱装置,该基于神经网络的佛教音乐记谱装置与上述实施例中基于神经网络的佛教音乐记谱方法一一对应。如图7所示,该基于神经网络的佛教音乐记谱装置包括转换模块701、第一获取模块702、第二获取模块703、第一输入模块704、第二输入模块705和生成模块706。各功能模块详细说明如下:

转换模块701,用于获取需要转为乐谱的原始佛教音频数据,并将所述原始佛教音频数据转换为时频谱矩阵,所述原始佛教音频数据包括佛教音频的音乐旋律和唱词;

第一获取模块702,用于获取包括音高识别模型的音高识别网络结构,所述音高识别模型为将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型;

第二获取模块703,用于获取包括唱词识别模型的唱词识别网络结构,所述唱词识别模型为将预训练的语音转文字模型迁移学习后形成的神经网络识别模型;

第一输入模块704,用于将所述时频谱矩阵输入所述音高识别网络结构,获得所述原始佛教音频数据的音高识别数据;

第二输入模块705,用于将所述时频谱矩阵输入所述唱词识别网络结构,获得所述原始佛教音频数据的唱词识别数据;

生成模块706,用于根据所述音高识别数据与所述唱词识别数据生成所述原始佛教音频数据的简谱。

进一步地,所述生成模块706具体用于:

确定所述音高识别数据中每一帧的音高,并确定所述唱词识别数据中每一帧的唱词;

将每一帧的所述音高与所述唱词进行对应连接,获得所述原始佛教音频数据的初始数据;

采用节拍器对所述初始数据进行节拍量化,以生成所述初始数据的简谱。

进一步地,所述根据所述音高识别数据与所述唱词识别数据生成所述原始佛教音频数据的简谱之后,所述生成模块706具体还用于:

将所述简谱的格式转换为MusicXML格式;

获取所述佛教音乐专家对所述MusicXML格式的简谱的人工校对结果;

根据所述人工校对结果更新所述简谱。

进一步地,所述转换模块701具体用于:

确定对所述原始佛教音频数据进行转换的窗函数为汉宁窗函数;

根据所述汉宁窗函数对所述原始佛教音频数据进行短时傅里叶变换,以获得所述时频谱矩阵。

进一步地,所述转换模块701具体用于根据如下公式获得所述时频谱矩阵:

其中,X(m,ω)为所述时频谱矩阵,n为所述原始佛教音频数据的信号,x[n]为所述原始佛教音频数据的信号输入序列,w[n]为汉宁窗函数,m为所述原始佛教音频数据的时间帧序数,ω为所述原始佛教音频数据的数字频率序数,N为所述原始佛教音频数据的帧长度。

关于基于神经网络的佛教音乐记谱装置的具体限定可以参见上文中对于基于神经网络的佛教音乐记谱方法的限定,在此不再赘述。上述基于神经网络的佛教音乐记谱装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述基于神经网络的佛教音乐记谱方法所用到、生成的数据,包括原始佛教音频数据、音高识别网络结构数据、唱词识别网络结构数据、音高识别数据、唱词识别数据、简谱等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于神经网络的佛教音乐记谱方法。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

获取需要转为乐谱的原始佛教音频数据,并将所述原始佛教音频数据转换为时频谱矩阵,所述原始佛教音频数据包括佛教音频的音乐旋律和唱词;

获取包括音高识别模型的音高识别网络结构,所述音高识别模型为将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型;

获取包括唱词识别模型的唱词识别网络结构,所述唱词识别模型为将预训练的语音转文字模型迁移学习后形成的神经网络识别模型;

将所述时频谱矩阵输入所述音高识别网络结构,获得所述原始佛教音频数据的音高识别数据;

将所述时频谱矩阵输入所述唱词识别网络结构,获得所述原始佛教音频数据的唱词识别数据;

根据所述音高识别数据与所述唱词识别数据生成所述原始佛教音频数据的简谱。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取需要转为乐谱的原始佛教音频数据,并将所述原始佛教音频数据转换为时频谱矩阵,所述原始佛教音频数据包括佛教音频的音乐旋律和唱词;

获取包括音高识别模型的音高识别网络结构,所述音高识别模型为将预训练的声音场景分类模型进行迁移学习后形成的神经网络识别模型;

获取包括唱词识别模型的唱词识别网络结构,所述唱词识别模型为将预训练的语音转文字模型迁移学习后形成的神经网络识别模型;

将所述时频谱矩阵输入所述音高识别网络结构,获得所述原始佛教音频数据的音高识别数据;

将所述时频谱矩阵输入所述唱词识别网络结构,获得所述原始佛教音频数据的唱词识别数据;

根据所述音高识别数据与所述唱词识别数据生成所述原始佛教音频数据的简谱。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号