首页> 中国专利> 佛教音乐识别方法、装置、设备及存储介质

佛教音乐识别方法、装置、设备及存储介质

摘要

本发明涉及人工智能技术领域,尤其涉及一种佛教音乐识别方法、装置、设备及存储介质,用于佛教音乐的识别。该佛教音乐识别方法包括:获取待识别的佛教音乐音频;利用音频节拍识别模型,对佛教音乐音频进行节拍识别,得到佛教音乐音频的节拍信息;根据节拍信息和预先选定的切分时值,对佛教音乐音频进行分段处理,得到音频片段;对音频片段中的频率帧进行泛音分离,获得基频序列;根据预先训练好的佛教音乐识别模型对基频序列进行识别,从而得到识别结果。相对于现有的一般向音乐识别方法,本提案中针对佛教音乐的音频特点进行佛教音乐的识别,提高了对佛教音乐识别的准确度。此外,本发明还涉及区块链技术,节拍信息可存储于区块链中。

著录项

  • 公开/公告号CN113066512A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202110311420.1

  • 发明设计人 刘奡智;郭锦岳;韩宝强;肖京;

    申请日2021-03-24

  • 分类号G10L25/51(20130101);G10L25/18(20130101);

  • 代理机构11321 北京市京大律师事务所;

  • 代理人姚维

  • 地址 518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明涉及人工智能技术领域,尤其涉及一种佛教音乐识别方法、装置、设备及存储介质。

背景技术

音乐已经成为人们生活必不可少的一部分,如今在各种场合都有可能听到背景音乐,如商场、餐馆等;随着科技的发展,智能手机的普及使得当人们听到喜欢的音乐时,可以通过音乐识别软件等识别出正在播放的音乐。

在现有的技术中,音乐的识别方法一般采用对旋律的特征进行简单的提取从而进行音乐的识别。但是,佛教音乐节奏较为固定,并且拥有稳定的律动。频谱特征上,使用的音阶较为单一,大量的混响与合唱的使用使得泛音列的能量较大,导致其基频相对不显著,对频谱识别准确率造成了一定的影响。

发明内容

本发明的主要目的在于解决佛教音乐由于基频信息不显著使得现有的音乐识别方法对佛教音乐识别不准确的问题。

本发明第一方面提供了一种佛教音乐识别方法,包括:

获取待识别的佛教音乐音频;

利用音频节拍识别模型,对所述佛教音乐音频进行节拍识别,得到所述佛教音乐音频的节拍信息;

根据所述节拍信息和预先选定的切分时值,对所述佛教音乐音频进行分段处理,得到音频片段;

对所述音频片段中的频率帧进行泛音分离,得到片段基频,将片段基频进行合并,获得基频序列;

根据预先训练好的佛教音乐识别模型对所述基频序列进行识别,得到识别结果。

可选的,在本发明第一方面的第一种实现方式中,所述利用音频节拍识别模型,对所述佛教音乐音频进行节拍识别,得到所述佛教音乐音频的节拍信息包括:

对所述佛教音乐音频进行低通滤波处理,得到滤波后的佛教音乐音频;

利用差分函数和自相关函数,对滤波后的佛教音乐音频进行处理,识别出所述佛教音乐音频的节拍信息,其中,所述节拍信息包括所述佛教音乐音频中每分钟的节拍数和节拍位置。

可选的,在本发明第一方面的第二种实现方式中,对所述音频片段中的频率帧进行泛音分离,获得基频序列包括:

利用短时傅里叶变换函数,对所述音频片段进行短时傅里叶变换,得到所述音频片段的时频谱;

根据泛音特征分离公式,对所述时频谱中的泛音特征进行去除,得到所述时频谱中每频率帧的能量值;

将所述时频谱中每频率帧的能量值按照时间帧取平均,得到所述切分时值范围内每频率帧的能量值;

将所有节拍位置的切分时值范围内每频率帧的能量值进行合并,得到基频序列。

可选的,在本发明第一方面的第三种实现方式中,所述泛音特征分离公式为:

其中,n为时间帧索引,k为频率帧索引,H为泛音级数,bin()为频率对应的频率帧索引,freq()为频率帧索引对应的频率。

可选的,在本发明第一方面的第四种实现方式中,所述将所有节拍位置的切分时值范围内每频率帧的能量值进行合并,得到基频序列包括:

将所有节拍位置的切分时值范围内每频率帧的能量值进行合并,得到初始基频序列;

对所述初始基频序列进行维特比解码,得到基频序列,其中,所述维特比解码的概率矩阵根据所述佛教音乐识别模型计算得出。

可选的,在本发明第一方面的第五种实现方式中,所述佛教音乐识别方法还包括:

预先收集佛教音乐样本,得到佛教音乐样本数据集,所述音乐样本包括多个佛教音乐的音频;

根据所述佛教音乐样本数据集,建立佛教音乐识别模型,计算出所述音乐样本的概率矩阵,其中,所述佛教音乐识别模型为马尔科夫模型。

可选的,在本发明第一方面的第六种实现方式中,所述根据预先训练好的佛教音乐识别模型对所述基频序列进行识别,得到识别结果之后,还包括:

根据用户对结果的反馈,提高识别错误的所述基频序列在维特比解码的概率矩阵中对应的转移概率。

本发明第二方面提供了一种佛教音乐识别装置,包括:

获取模块,用于获取待识别的佛教音乐音频;

节拍识别模块,用于利用音频节拍识别模型,对所述佛教音乐音频进行节拍识别,得到所述佛教音乐音频的节拍信息;

音频切分模块,用于根据所述节拍信息和预先选定的切分时值,对所述佛教音乐音频进行分段处理,得到音频片段;

特征提取模块,用于对所述音频片段中的频率帧进行泛音分离,得到片段基频,将片段基频进行合并,获得基频序列;

识别模块,用于根据预先训练好的佛教音乐识别模型对所述基频序列进行识别,得到识别结果。

可选的,在本发明第二方面的第一种实现方式中,所述节拍识别模块包括:

高频噪声去除单元,用于对所述佛教音乐音频进行低通滤波处理,得到滤波后的佛教音乐音频;

节拍信息识别单元,用于利用差分函数和自相关函数,对滤波后的佛教音乐音频进行处理,识别出所述佛教音乐音频的节拍信息,其中,所述节拍信息包括所述佛教音乐音频中每分钟的节拍数和节拍位置。

可选的,在本发明第二方面的第二种实现方式中,所述特征提取模块包括:

傅里叶变换单元,用于利用短时傅里叶变换函数,对所述音频片段进行短时傅里叶变换,得到所述音频片段的时频谱;

泛音分离单元,用于根据泛音特征分离公式,对所述时频谱中的泛音特征进行合并,得到所述时频谱中每频率帧的能量值;

均值计算单元,用于将所述时频谱中每频率帧的能量值按照时间帧取平均,得到所述切分时值范围内每频率帧的能量值;

基频序列获取单元,用于将所有节拍位置的切分时值范围内每频率帧的能量值进行合并,得到基频序列。

可选的,在本发明第二方面的第三种实现方式中,所述泛音分离单元中的泛音特征分离公式为:

其中,n为时间帧索引,k为频率帧索引,H为泛音级数,bin()为频率对应的频率帧索引,freq()为频率帧索引对应的频率。

可选的,在本发明第二方面的第四种实现方式中,所述基频序列获取单元包括:

初始基频序列获取子单元,用于将所有节拍位置的切分时值范围内每频率帧的能量值进行合并,得到初始基频序列;

基频序列获取子单元,用于对所述初始基频序列进行维特比解码,得到基频序列,其中,所述维特比解码的概率矩阵根据所述佛教音乐识别模型计算得出。

可选的,在本发明第二方面的第五种实现方式中,所述识别模块包括:

数据集获取单元,用于预先收集佛教音乐样本,得到佛教音乐样本数据集,所述音乐样本包括多个佛教音乐的音频;

模型建立单元,用于根据所述佛教音乐样本数据集,建立佛教音乐识别模型,计算出所述音乐样本的概率矩阵,其中,所述佛教音乐识别模型为马尔科夫模型。

可选的,在本发明第二方面的第六种实现方式中,所述佛教音乐识别装置还包括:

数据修正模块,用于根据用户对结果的反馈,提高识别错误的所述基频序列在维特比解码的概率矩阵中对应的转移概率。

本发明第三方面提供了一种佛教音乐识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述佛教音乐识别设备执行上述的佛教音乐识别方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的佛教音乐识别方法。

本发明提供的技术方案中,获取待识别的佛教音乐音频;利用音频节拍识别模型,对佛教音乐音频进行节拍识别,得到佛教音乐音频的节拍信息;根据节拍信息和预先选定的切分时值,对佛教音乐音频进行分段处理,得到音频片段;对音频片段中的频率帧进行泛音分离,获得基频序列;根据预先训练好的佛教音乐识别模型对基频序列进行识别,从而得到识别结果。本发明实施例中,针对佛教音乐的音频特点进行佛教音乐的识别,提高了对佛教音乐识别的准确度。

附图说明

图1为本发明实施例中佛教音乐识别方法的一个实施例示意图;

图2为本发明实施例中佛教音乐识别方法的另一个实施例示意图;

图3为本发明实施例中佛教音乐识别方法的另一个实施例示意图;

图4为本发明实施例中佛教音乐识别方法的另一个实施例示意图;

图5为本发明实施例中佛教音乐识别装置的一个实施例示意图;

图6为本发明实施例中佛教音乐识别装置的另一个实施例示意图;

图7为本发明实施例中佛教音乐识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种佛教音乐识别方法、装置、设备及存储介质,获取待识别的佛教音乐音频;利用音频节拍识别模型,对佛教音乐音频进行节拍识别,得到佛教音乐音频的节拍信息;根据节拍信息和预先选定的切分时值,对佛教音乐音频进行分段处理,得到音频片段;对音频片段中的频率帧进行泛音分离,获得基频序列;根据预先训练好的佛教音乐识别模型对基频序列进行识别,从而得到识别结果。本发明实施例中,针对佛教音乐的音频特点进行佛教音乐的识别,提高了对佛教音乐识别的准确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中佛教音乐识别方法的一个实施例包括:

101、获取待识别的佛教音乐音频;

可以理解的是,本发明的执行主体可以为佛教音乐识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

首先对待识别的佛教音乐的多媒体文件进行获取,其中多媒体文件包括多种类型,例如该多媒体文件可以是用户从网络上获得到的一段具有佛教音乐作为背景音乐的视频或是通过摄像头拍摄到的一段视频;当该多媒体文件为视频时,采用服务器对该文件进行信息提取,去除不需要的画面信息等,获得到该多媒体文件的音频;该多媒体文件也可以是用户从网络上获得到的一段音频文件或通过手机录制以及其他方式获得的佛教音乐音频文件。

例如,普通听众在参加佛教集会或者在其他相关场合中听到一首佛教音乐,由于佛教音乐的特点,无法根据用户听到的歌词等信息直接进行搜索,故可以首先录制一段待识别的音频,接下来即可以按照以下步骤的说明利用本提案中建立的音频节拍识别模型对佛教音乐进行识别。

102、利用音频节拍识别模型,对佛教音乐音频进行节拍识别,得到佛教音乐音频的节拍信息;

利用预先建立好的音频节拍识别模型对佛教音乐音频进行节拍识别,本步骤中提出的节拍是乐曲中表示固定单位时值和强弱规律的组织形式,在音乐中,有一定强弱分别的一系列拍子在每隔一定时间重复出现。如2/4、4/4、3/4拍等。

本实施例中的节拍信息主要为每分钟节拍数,采用音频节拍识别模型根据音频信号中的强弱规律对节拍进行识别,从而识别出待识别音频的每分钟节拍数(BPM,Beat PerMinute),每分钟节拍数为独立在曲谱外的速度标准,一般以一个四分音符为一拍,60BPM为一分钟演奏均匀60个四分音符(或等效的音符组合)。

103、根据节拍信息和预先选定的切分时值,对佛教音乐音频进行分段处理,得到音频片段;

根据上一步骤中获得的节拍信息,按照识别出的节拍位置预先选定的切分时值对佛教音乐音频进行分段处理,得到多个音频片段。

具体地,在本提案中,采用的切分时值为全音符时值的八分之一,也就是每八分音符长度对佛教音乐音频进行分段处理,得到每八分音符位置的音频片段。例如,若得到的每分钟节拍数为60BPM,则每八分音符的时值长度为0.5秒,也就是说,按照节拍信息,将佛教音乐音频每0.5秒进行分段得到音频片段。

104、对音频片段中的频率帧进行泛音分离,获得基频序列;

在所有谐波震荡中频率最小者称为基本频率,可简称为基频;基频的高低决定了乐器弹奏此音符的音高。几乎所有乐器除了可发出基频音以外亦会伴随着较高频的声音,称为泛音。在有明显音高的乐器中,弦或空气管之间会有因反射而造成波长相同、行进方向相反的波,而因为这些彼此互相干涉而产生波长、频率不同的谐波,在音乐上的名词即为泛音。

由于佛教音乐的旋律节奏虽然较为固定,但在演奏时会使用大量的混响与合唱,导致泛音列的能量较大,使得其基频相对不显著,这会对基频的识别造成很大影响,故在本提案中,将获取到的音频片段进行处理使其基频变得易于识别。

具体地,首先将获取到的音频片段进行傅里叶变换处理,得到该音频片段的时频谱;随后,利用时频谱中泛音频谱中的波形特性,对获得到的时频谱的泛音列信息与基音的信息进行分离,去除容易影响判断的泛音列信息,留下时频谱中的基音对应的信号;也就是获得到音频片段中的基频信号。

根据各个音频片段中的基频信号,将基频信号进行合并,获得到泛音分离后的基频序列。

105、根据预先训练好的佛教音乐识别模型对基频序列进行识别,得到识别结果。

在本步骤中,佛教音乐识别模型是预先通过马尔科夫模型(Markov Model)的原理进行建立的,具体地,本佛教音乐识别模型采用的是隐马尔科夫模型(Hidden MarkovModel,HMM)。根据预先建立好的隐马尔科夫模型,应用维特比解码的算法对上述步骤中获得到的基频序列进行预测与识别,找到将识别到的佛教音乐的信息以及相应的完整音频推送给用户的客户端。

本发明实施例中,针对佛教音乐的音频特点进行佛教音乐的识别,提高了对佛教音乐识别的准确度。

请参阅图2,本发明实施例中佛教音乐识别方法的另一个实施例包括:

201、获取待识别的佛教音乐音频;

佛教音频可以为用户录制或从网络上下载的包含有佛乐音频的多媒体文件,对多媒体文件中不需要的画面信息等进行去除后得到佛教音乐的音频;也可以为用户从网络上获得到的一段音频文件或通过手机录制以及其他方式获得的佛教音乐音频文件。

202、对佛教音乐音频进行低通滤波处理,得到滤波后的佛教音乐音频;

在获取到待识别的佛教音乐音频后,首先对待识别的佛教音乐音频进行低通滤波,由于过高的频段中几乎不包含乐器或人声的信息,对于本步骤中的音乐识别来说为噪声,将高频下的噪音去除在一定的条件下提高了识别的准确度。

其中,可以采用滤波电路或者电子滤波器对佛教音乐音频信号进行处理。

203、利用差分函数和自相关函数,对滤波后的佛教音乐音频进行处理,识别出佛教音乐音频的节拍信息;

其中,节拍信息包括佛教音乐音频中每分钟的节拍数和节拍位置。

对佛教音乐音频进行滤波处理后,对滤波后的佛教音乐音频信号进行识别,识别佛教音乐音频信号的节拍长度和节拍位置。具体地,可以采用自相关函数对节拍进行识别。自相关函数也称为序列相关函数,是一个信号于其自身在不同时间点的互相关,是找出重复模式(如被噪声掩盖的周期信号),或识别隐含在信号谐波频率中消失的基频的数学工具。使用自相关函数对滤波后的佛教音乐音频信号进行处理,得到该段音频的每分钟节拍数。

此外,使用差分函数变换,对佛教音频信息的短时能量序列求差分,得到差分变换后的结果代表了短时能量的变化率。乐曲信号每一拍的短时能量随着时间不断衰减。只有当新的一拍到来时,短时能量才会陡然上升。利用这一性质,通过计算每一帧信号短时能量的变化率来识别节拍位置,当每一帧信号短时能量的变化率大于一个固定的阈值时,则判定这一帧信号为一个新节拍的开始位置。

204、根据节拍长度、节拍位置和预先选定的切分时值,对佛教音乐音频进行分段处理,得到音频片段;

根据上一步骤中的节拍长度、节拍位置对佛教音乐音频进行分段处理,在本步骤中,选定的切分时值为全音符时值的八分之一,也就是每八分音符长度对佛教音乐音频进行分段处理,得到每八分音符位置的音频片段。例如,若得到的每分钟节拍数为60BPM,则每八分音符的时值长度为0.5秒,也就是说,按照节拍信息,将佛教音乐音频每0.5秒进行分段得到音频片段。

205、利用短时傅里叶变换函数,对音频片段进行短时傅里叶变换,得到音频片段的时频谱;

傅里叶变换能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合,通过傅里叶变换可以将时域中难以分析的信号转换到频域上,从而进行计算与分析。

首先对于上一步骤中的每一段音频片段,进行带通滤波,在本步骤中,采用的带通频段为200Hz-8000Hz频段,这个频段范围内几乎包括了人声和大多数乐器的发声频率;将每一段音频片段除200Hz-8000Hz频段的信号进行去除,得到滤波后的音频片段。

在本步骤中,使用短时傅里叶函数以确定时变信号其局部区域正弦波的频率与相位。具体地,将滤波后的音频片段进行短时傅里叶变换(STFT,short-time Fouriertransform,或short-term Fourier transform),得到音频片段的时频谱。

206、根据泛音特征分离公式,对时频谱中的泛音特征进行分离,得到时频谱中每频率帧的能量值;

由于佛教音乐的节奏较为固定,并且拥有稳定的律动。其使用的音阶较为单一,大多数具有大量的混响与合唱的片段。大量的混响与合唱的使用会使得泛音列的能量较大,导致基频不显著,在频谱识别过程中,泛音列会对识别准确度造成影响,故需将泛音特征进行分离,提高对基频识别的准确度。

具体地,对泛音特征进行分离的公式如下:

其中X

207、将时频谱中每频率帧的能量值按照时间帧取平均,得到切分时值范围内每频率帧的能量值,将所有节拍位置的切分时值范围内每频率帧的能量值进行合并,得到基频序列;

进一步地,将上步骤中获得到的X

208、根据预先训练好的佛教音乐识别模型对基频序列进行识别,得到识别结果。

对基频序列

本发明实施例中,针对佛教音乐节奏特征明显、泛音列能量较大使得基频不显著的音频特点,对获得到的佛教音频进行处理,去除了噪音以及泛音列对旋律识别的影响,提升了对佛教音乐识别的性能,提高了对佛教音乐识别的准确度。

请参阅图3,本发明实施例中佛教音乐识别方法的另一个实施例包括:

301、获取待识别的佛教音乐音频;

例如,普通听众在参加佛教集会或者在其他相关场合中听到一首佛教音乐,由于佛教音乐的特点,无法根据用户听到的歌词等信息直接进行搜索,故可以首先录制一段待识别的音频,接下来即可以按照以下步骤的说明利用本实施例中建立的音频节拍识别模型对该佛教音乐进行识别。

302、利用音频节拍识别模型,对佛教音乐音频进行节拍识别,得到佛教音乐音频的节拍信息;

利用预先建立好的音频节拍识别模型对佛教音乐音频进行节拍识别,本步骤中提出的节拍是乐曲中表示固定单位时值和强弱规律的组织形式,在音乐中,有一定强弱分别的一系列拍子在每隔一定时间重复出现。如2/4、4/4、3/4拍等。

本实施例中的节拍信息主要为每分钟节拍数,采用音频节拍识别模型根据音频信号中的强弱规律对节拍进行识别,从而识别出待识别音频的每分钟节拍数(BPM,Beat PerMinute),每分钟节拍数为独立在曲谱外的速度标准,一般以一个四分音符为一拍,60BPM为一分钟演奏均匀60个四分音符(或等效的音符组合)。

303、根据节拍信息和预先选定的切分时值,对佛教音乐音频进行分段处理,得到音频片段;

根据上一步骤中获得的节拍信息,按照识别出的节拍位置预先选定的切分时值对该佛教音乐音频进行分段处理,得到音频片段。

具体地,在本步骤中,采用的切分时值为全音符时值的八分之一,也就是每八分音符长度对该佛教音乐音频进行分段处理,得到每八分音符位置的音频片段。例如,若得到的每分钟节拍数为60BPM,则每八分音符的时值长度为0.5秒,也就是说,按照节拍信息,将该佛教音乐音频每0.5秒进行分段得到音频片段。

304、对音频片段中的频率帧进行泛音分离,获得基频序列;

在所有谐波震荡中频率最小者称为基本频率,可简称为基频;基频的高低决定了乐器弹奏此音符的音高。几乎所有乐器除了可发出基频音以外亦会伴随着较高频的声音,称为泛音。在有明显音高的乐器中,弦或空气管之间会有因反射而造成波长相同、行进方向相反的波,而因为这些彼此互相干涉而产生波长、频率不同的谐波,在音乐上的名词即为泛音。

由于佛教音乐的旋律节奏虽然较为固定,但在演奏时会使用大量的混响与合唱,导致泛音列的能量较大,使得其基频相对不显著,这会对基频的识别造成很大影响,故在本步骤中,将获取到的音频片段进行处理使其基频变得易于识别。

具体地,首先将获取到的音频片段进行傅里叶变换处理,得到该音频片段的时频谱;随后,利用时频谱中泛音频谱中的波形特性,对获得到的时频谱的泛音列信息与基音的信息进行分离,去除容易影响判断的泛音列信息,留下时频谱中的基音对应的信号;也就是获得到该音频片段中的基频信号。

根据各个音频片段中的基频信号,将基频信号进行合并,获得到泛音分离后的基频序列。

305、预先收集佛教音乐样本,得到佛教音乐样本数据集;

预先收集一定数量的佛教音乐样本,其中,佛教音乐样本为具有佛教音乐信息的音频。对这些佛教音乐样本进行如本实施例中以上步骤的处理操作,得到佛教音乐样本的基频序列信息。将这些佛教音乐样本以及基频序列信息组成佛教音乐样本数据集。

306、根据佛教音乐样本数据集,建立佛教音乐识别模型,计算出音乐样本的概率矩阵,根据预先训练好的佛教音乐识别模型对基频序列进行识别,得到识别结果。

其中,该佛教音乐识别模型为马尔科夫模型。

根据上步骤中获得到的佛教音乐样本数据集构建佛教音乐识别模型,具体地,本佛教音乐识别模型采用隐马尔科夫模型(Hidden Markov Model,HMM)。根据预先建立好的隐马尔科夫模型,应用维特比解码的算法对上述步骤中获得到的基频序列进行预测与识别,找到将识别到的佛教音乐的信息以及相应的完整音频推送给用户的客户端。

本发明实施例中,针对佛教音乐的音频特点,对获得到的佛教音频进行处理,去除了噪音以及泛音列对旋律识别的影响,预先建立隐马尔科夫模型对佛教音乐进行识别,提升了对佛教音乐识别的性能,提高了对佛教音乐识别的准确度;且随着本实施例中建立的隐马尔科夫模型中的训练集中的数据增加,本实施例中对佛教音乐识别的准确度能够继续提高。

请参阅图4,本发明实施例中佛教音乐识别方法的另一个实施例包括:

401、获取待识别的佛教音乐音频;

该佛教音频可以为用户录制或从网络上下载的包含有佛乐音频的多媒体文件,对多媒体文件中不需要的画面信息等进行去除后得到该佛教音乐的音频;也可以为用户从网络上获得到的一段音频文件或通过手机录制以及其他方式获得的佛教音乐音频文件。

402、对佛教音乐音频进行低通滤波处理,得到滤波后的佛教音乐音频;

在获取到待识别的佛教音乐音频后,首先对待识别的佛教音乐音频进行低通滤波,由于过高的频段中几乎不包含乐器或人声的信息,对于本步骤中的音乐识别来说为噪声,将高频下的噪音去除在一定的条件下提高了识别的准确度。

其中,可以采用滤波电路或者电子滤波器对佛教音乐音频信号进行处理。

403、利用差分函数和自相关函数,对滤波后的佛教音乐音频进行处理,识别出佛教音乐音频的节拍信息;

其中,节拍信息包括佛教音乐音频中每分钟的节拍数和节拍位置。对佛教音乐音频进行滤波处理后,对滤波后的佛教音乐音频信号进行识别,识别佛教音乐音频信号的节拍长度和节拍位置。具体地,可以采用自相关函数对节拍进行识别。自相关函数也称为序列相关函数,是一个信号于其自身在不同时间点的互相关,是找出重复模式(如被噪声掩盖的周期信号),或识别隐含在信号谐波频率中消失的基频的数学工具。使用自相关函数对滤波后的佛教音乐音频信号进行处理,得到该段音频的每分钟节拍数。

此外,使用差分函数变换,对佛教音频信息的短时能量序列求差分,得到差分变换后的结果代表了短时能量的变化率。乐曲信号每一拍的短时能量随着时间不断衰减。只有当新的一拍到来时,短时能量才会陡然上升。利用这一性质,通过计算每一帧信号短时能量的变化率来识别节拍位置,当每一帧信号短时能量的变化率大于一个固定的阈值时,则判定这一帧信号为一个新节拍的开始位置。

404、根据节拍长度、节拍位置和预先选定的切分时值,对佛教音乐音频进行分段处理,得到音频片段;

根据上一步骤中的节拍长度、节拍位置对佛教音乐音频进行分段处理,在本步骤中,选定的切分时值为全音符时值的八分之一,也就是每八分音符长度对佛教音乐音频进行分段处理,得到每八分音符位置的音频片段。例如,若得到的每分钟节拍数为60BPM,则每八分音符的时值长度为0.5秒,也就是说,按照节拍信息,将佛教音乐音频每0.5秒进行分段得到音频片段。

405、利用短时傅里叶变换函数,对音频片段进行短时傅里叶变换,得到音频片段的时频谱;

傅里叶变换能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合,通过傅里叶变换可以将时域中难以分析的信号转换到频域上,从而进行计算与分析。

首先对于上一步骤中的每一段音频片段,进行带通滤波,在本步骤中,采用的带通频段为200Hz-8000Hz频段,这个频段范围内几乎包括了人声和大多数乐器的发声频率;将每一段音频片段除200Hz-8000Hz频段的信号进行去除,得到滤波后的音频片段。

在本步骤中,使用短时傅里叶函数以确定时变信号其局部区域正弦波的频率与相位。具体地,将滤波后的音频片段进行短时傅里叶变换(STFT,short-time Fouriertransform,或short-term Fourier transform),得到音频片段的时频谱。

406、根据泛音特征分离公式,对时频谱中的泛音特征进行分离,得到时频谱中每频率帧的能量值;

由于佛教音乐的节奏较为固定,并且拥有稳定的律动。其使用的音阶较为单一,大多数具有大量的混响与合唱的片段。大量的混响与合唱的使用会使得泛音列的能量较大,导致基频不显著,在频谱识别过程中,泛音列会对识别准确度造成影响,故需将泛音特征进行分离,提高对基频识别的准确度。

具体地,对泛音特征进行分离的公式如下:

其中X

407、将时频谱中每频率帧的能量值按照时间帧取平均,得到切分时值范围内每频率帧的能量值,将所有节拍位置的切分时值范围内每频率帧的能量值进行合并,得到基频序列;

进一步地,将上步骤中获得到的X

408、预先收集佛教音乐样本,得到佛教音乐样本数据集;

预先收集一定数量的佛教音乐样本,其中,佛教音乐样本为具有佛教音乐信息的音频。对这些佛教音乐样本进行如本实施例中以上步骤的处理操作,得到佛教音乐样本的基频序列信息,组成佛教音乐样本数据集。

具体地,将这些佛教音乐样本以及基频序列信息进行一定程度的变化以及增加噪声处理,可增加佛教音乐样本数据集的数量。其中,增加佛教音乐样本数据集中的佛教音乐样本能够一定程度上提高本实施例中佛教音乐模型识别的准确度。

409、根据佛教音乐样本数据集,建立佛教音乐识别模型,计算出音乐样本的概率矩阵,根据预先训练好的佛教音乐识别模型对基频序列进行识别,得到识别结果;

其中,该佛教音乐识别模型为马尔科夫模型。

根据上步骤中获得到的佛教音乐样本数据集构建佛教音乐识别模型,具体地,本佛教音乐识别模型采用隐马尔科夫模型(Hidden Markov Model,HMM)。根据预先建立好的隐马尔科夫模型,应用维特比解码的算法对上述步骤中获得到的基频序列进行预测与识别,将识别到的佛教音乐的信息以及相应的完整音频推送给用户的客户端。

410、根据用户对结果的反馈,提高识别错误的基频序列在维特比解码的概率矩阵中对应的转移概率。

在对识别到的佛教音乐的信息以及相应的完整音频推送给用户的客户端后,还要接受用户对结果的反馈,将结果的反馈输入训练集中对佛教音乐识别模型进行修正。将识别错误的基频序列列在维特比解码的概率矩阵中对应的转移概率提高,更新本实施例中建立的佛教音乐识别模型,从而进一步提升识别的准确率。

本发明实施例中,针对佛教音乐的音频特点,去除了噪音以及泛音列对旋律识别的影响,提高了对佛教音乐识别的准确度;此外,本实施例中的佛教音乐识别模型还可以根据用户反馈的识别信息扩充训练集中的数据以及进行佛教音乐识别模型的修正,从而进一步提升了本发明对佛教音乐识别的准确度。

上面对本发明实施例中佛教音乐识别方法进行了描述,下面对本发明实施例中佛教音乐识别装置进行描述,请参阅图5,本发明实施例中佛教音乐识别装置一个实施例包括:

获取模块501,用于获取待识别的佛教音乐音频;

节拍识别模块502,用于利用音频节拍识别模型,对佛教音乐音频进行节拍识别,得到该佛教音乐音频的节拍信息;

音频切分模块503,用于根据节拍信息和预先选定的切分时值,对佛教音乐音频进行分段处理,得到音频片段;

特征提取模块504,用于对音频片段中的频率帧进行泛音分离,得到片段基频,将片段基频进行合并,获得基频序列;

识别模块505,用于根据预先训练好的佛教音乐识别模型对基频序列进行识别,得到识别结果。

本发明实施例中,针对佛教音乐的音频特点进行佛教音乐的识别,提高了对佛教音乐识别的准确度。

请参阅图6,本发明实施例中佛教音乐识别装置的另一个实施例包括:

获取模块501,用于获取待识别的佛教音乐音频;

节拍识别模块502,用于利用音频节拍识别模型,对佛教音乐音频进行节拍识别,得到该佛教音乐音频的节拍信息;

音频切分模块503,用于根据节拍信息和预先选定的切分时值,对佛教音乐音频进行分段处理,得到音频片段;

特征提取模块504,用于对音频片段中的频率帧进行泛音分离,得到片段基频,将片段基频进行合并,获得基频序列;

识别模块505,用于根据预先训练好的佛教音乐识别模型对基频序列进行识别,得到识别结果。

可选的,节拍识别模块502包括:

高频噪声去除单元5021,用于对佛教音乐音频进行低通滤波处理,得到滤波后的佛教音乐音频;

节拍信息识别单元5022,用于利用差分函数和自相关函数,对滤波后的佛教音乐音频进行处理,识别出该佛教音乐音频的节拍信息,其中,节拍信息包括佛教音乐音频中每分钟的节拍数和节拍位置。

可选的,特征提取模块504包括:

傅里叶变换单元5041,用于利用短时傅里叶变换函数,对音频片段进行短时傅里叶变换,得到音频片段的时频谱;

泛音分离单元5042,用于根据泛音特征分离公式,对时频谱中的泛音特征进行分离,得到时频谱中每频率帧的能量值;

均值计算单元5043,用于将时频谱中每频率帧的能量值按照时间帧取平均,得到切分时值范围内每频率帧的能量值;

基频序列获取单元5044,用于将所有节拍位置的切分时值范围内每频率帧的能量值进行合并,得到基频序列。

可选的,泛音分离单元5042中的泛音特征分离公式为:

其中,n为时间帧索引,k为频率帧索引,H为泛音级数,bin()为频率对应的频率帧索引,freq()为频率帧索引对应的频率。

可选的,基频序列获取单元5044包括:

初始基频序列获取子单元,用于将所有节拍位置的切分时值范围内每频率帧的能量值进行合并,得到初始基频序列;

基频序列获取子单元,用于对初始基频序列进行维特比解码,得到基频序列,其中,维特比解码的概率矩阵根据佛教音乐识别模型计算得出。

可选的,识别模块505还包括:

数据集获取单元5051,用于预先收集佛教音乐样本,得到佛教音乐样本数据集,音乐样本包括多个佛教音乐的音频;

模型建立单元5052,用于根据佛教音乐样本数据集,建立佛教音乐识别模型,计算出音乐样本的概率矩阵,其中,佛教音乐识别模型为马尔科夫模型。

可选的,佛教音乐识别装置还包括:

数据修正模块506,用于根据用户对结果的反馈,提高识别错误的基频序列在维特比解码的概率矩阵中对应的转移概率。

本发明实施例中,针对佛教音乐的音频特点,去除了噪音以及泛音列对旋律识别的影响,提高了对佛教音乐识别的准确度;此外,本实施例中的佛教音乐识别模型还可以根据用户反馈的识别信息扩充训练集中的数据以及进行佛教音乐识别模型的修正,从而进一步提升了本发明对佛教音乐识别的准确度。

上面图5和图6从模块化功能实体的角度对本发明实施例中的佛教音乐识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中佛教音乐识别设备进行详细描述。

图7是本发明实施例提供的一种佛教音乐识别设备的结构示意图,该佛教音乐识别设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对佛教音乐识别设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在佛教音乐识别设备700上执行存储介质730中的一系列指令操作。

佛教音乐识别设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和/或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的佛教音乐识别设备结构并不构成对佛教音乐识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种佛教音乐识别设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述佛教音乐识别方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述佛教音乐识别方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号