首页> 中国专利> 个性化歌曲文件生成方法和装置、音乐演唱设备

个性化歌曲文件生成方法和装置、音乐演唱设备

摘要

本申请涉及一种个性化歌曲文件生成方法和装置、音乐演唱设备、计算机设备、计算机可读存储介质;所述方法包括:从外部的音源获取音乐文件,对音乐文件进行预处理并保存;对音乐文件进行人声与伴奏分离,得到相应的人声信息和包含各种乐器的伴奏信息;获取音乐文件的属性信息,根据属性信息以及预设匹配规则在素材库中查找所述音乐文件相匹配的图像内容;获取音乐文件的歌词信息,根据所述歌词信息、伴奏信息以及图像内容生成个性化歌曲文件;构建了智能化的歌曲文件生成流程,终端设备可以从任意音源输入音乐文件,即可得到喜好的个性化歌曲文件,使得用户可以自由便捷地制作个性化歌曲,满足用户个性化需求,提升用户应用体验。

著录项

  • 公开/公告号CN113836344A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 广州艾美网络科技有限公司;

    申请/专利号CN202111169086.7

  • 发明设计人 周跃兵;徐焕芬;

    申请日2021-09-30

  • 分类号G06F16/635(20190101);G06F16/638(20190101);G06F16/683(20190101);G06F16/68(20190101);G06N3/04(20060101);G06N3/08(20060101);G10H1/36(20060101);G10H1/00(20060101);

  • 代理机构44614 广州市律帆知识产权代理事务所(普通合伙);

  • 代理人余永文

  • 地址 510000 广东省广州市海珠区昌岗中路238号2502-2506房

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本申请涉及娱乐设备技术领域,尤其是一种个性化歌曲文件生成方法和装置、音乐演唱设备、计算机设备、计算机可读存储介质。

背景技术

现代社会属于快节奏的数字化时代,欣赏一首音乐,不仅仅是为了听歌而听歌,还会去感受歌曲中的内容,包括歌曲精髓,歌曲表达的意思等,不仅如此,更多用户甚至加入歌曲创作的过程,用歌曲表达目前的生活状态和心情,抒发个人情感,这使得个性化歌曲的制作变得尤为重要。

目前,随着各大音乐产品平台的发展,一般都构建了庞大的歌曲库,以满足用户日常需求,然而不管歌曲库的功能做得再强大,也无法满足用户个性化的喜好,用户只能从歌曲库中所提供的歌曲进行选择,虽然目前有一些软件产品可以为用户提供了录制音乐功能,但从使用过程和功能来看,无法便捷和智能为用户制作个性化歌曲,难以满足市场需求。

发明内容

针对于上述技术缺陷之一,本申请提供一种个性化歌曲文件生成方法和装置、音乐演唱设备、计算机设备、计算机可读存储介质,从而可以便捷和智能地为用户制作个性化歌曲。

一种个性化歌曲文件生成方法,包括:

从外部的音源获取音乐文件,对所述音乐文件进行预处理并保存;

对所述音乐文件进行人声与伴奏分离,得到相应的人声信息和包含各种乐器的伴奏信息;

获取所述音乐文件的属性信息,根据所述属性信息以及预设匹配规则在素材库中查找所述音乐文件相匹配的图像内容;

获取所述音乐文件的歌词信息,根据所述歌词信息、伴奏信息以及图像内容生成个性化歌曲文件。

在一个实施例中,从外部的音源获取音乐文件,包括:

从至少一个音源接收音频数据包;其中,所述音频数据包基于预设的私有协议进行封装;

根据所述私有协议解析所述音频数据包得到音频数据;

根据所述音频数据获取音乐文件。

在一个实施例中,所述从至少一个音源接收音频数据包,包括:

建立与多个音乐数据源之间的通信连接;

采用时分工作方式接收各个所述设备终端发送的基于所述私有协议封装的音频数据包;

根据所述私有协议解析各个音频数据包得到多份音乐文件。

在一个实施例中,对所述音乐文件进行预处理,包括:

分别对每一份音乐文件并行运算获得其属性信息;其中,所述属性参数包括采样率、格式和通道位数;

根据所述属性信息所述音乐文件是否为高音质音乐文件,若否,则对所述音乐文件进行音质重塑得到一首高音质音乐。

在一个实施例中,对所述音乐文件进行预处理,包括:

分别从多份音乐文件中提取同一首音乐的不同乐器演奏的伴奏内容,将各份伴奏内容合并得到一份伴奏文件。

在一个实施例中,对所述音乐文件进行预处理,包括:

分别从各份音乐文件提取音乐高潮片段,将各份音乐高潮片段进线拼接成一份串烧音乐文件。

在一个实施例中,对所述音乐文件进行人声与伴奏分离,包括:

对输入的音乐文件进行STFT频谱分析,并进行对数梅尔频谱转化得到梅尔频谱;

利用预先训练的人声网络、伴奏网络和乐器网络对所述梅尔频谱进行分析获得对应的频谱图,根据频谱图计算人声频谱在整个音乐频谱中所占的比例以及伴奏频谱在整个音乐频谱中所占的比例,分别根据该比例与音乐频谱进行乘积得到人声频谱和伴奏频谱;

对所述人声频谱和伴奏频谱进行ISTFT分析,将人声频谱和伴奏频谱分别转化为人声信息和伴奏信息;

计算伴奏信息每种乐器的音乐信号谱,并保存为单独的乐器伴奏。

在一个实施例中,所述的个性化歌曲文件生成方法,还包括:

将歌曲库中预存的人声和伴奏及其对应的乐器音色库,分别构建人声网络,伴奏网络和乐器网络;

分别对带伴奏的音乐、纯人声、纯伴奏以及纯乐器音色四种类型的素材进行STFT分析和对数梅尔频谱转化;

对所述音乐进行盲源分离分别输入人声网络、伴奏网络和乐器网络,得到纯人声音色谱、纯伴奏音色谱以及纯乐器音色谱;

将纯人声音色谱、纯伴奏音色谱以及纯乐器音色谱分别与纯人声音轨幅度谱、纯伴奏音轨幅度谱以及纯乐器音轨幅度谱进行比对,采用曼哈顿距离计算二者相似度,并采用取均值的方式获得损失函数,优化并调节盲源分离的参数。

在一个实施例中,对所述音乐文件进行音质重塑得到一首高音质音乐,包括:

将音乐文件分离成人声信息和初始伴奏信息;

对初始伴奏信息中的乐器进行识别;

利用预先建立的乐器音色库中记录的各种乐器对应高音质的音色,分别对初始伴奏信息中的各种乐器进行音色补偿,得到高清的伴奏信息。

在一个实施例中,对所述音乐文件进行人声与伴奏分离,包括:

获取所述音乐文件中人声的发声对象的其他声音文件;

根据所述其他声音文件提取所述发声对象的声纹信息;

利用所述声纹信息生成人声滤波器,利用所述人声滤波器对所述音乐文件进行滤波得到人声信息,并提取出伴奏信息。

在一个实施例中,所述的个性化歌曲文件生成方法,还包括:

获取多个音乐文件的发声对象的音视频文件;

对所述音视频文件提取声纹信息,并打上所述发声对象的标签;

将所述发声对象的声纹信息及其标签存储到声纹库中。

在一个实施例中,所述属性信息,包括:歌手名、专辑、歌词、伴奏、乐器、歌曲名、歌曲风格中的一种或多种;

所述图像内容包括:MV、歌手图片和/或风格多样的数字动画。

在一个实施例中,根据所述属性信息以及预设匹配规则在素材库中查找所述音乐文件相匹配的图像内容,包括:

根据所述属性信息在素材库中进行属性信息ID搜索,获取包含多个MV的MV候选集;其中,所述素材库中存储多个MV及其对应标注的若干个属性信息ID;

根据MV候选集的MV歌词属性信息,与所述音乐文件的歌词文本进行相似度计算,根据相似度大小确定相匹配的MV。

在一个实施例中,获取所述音乐文件的歌词信息,包括:

根据所述属性信息在歌词库中进行属性信息ID搜索获得所述音乐文件的第一歌词;

对所述人声信息进行语言识别获得所述音乐文件的第二歌词;

通过网络爬取方式从公开的歌词网站上获得所述音乐文件的第三歌词;

根据所述第二歌词确定的副歌位置信息,对所述第一歌词和第三歌词进行纠正,得到所述音乐文件的歌词信息。

在一个实施例中,根据所述歌词信息、伴奏信息以及图像内容生成个性化歌曲文件,包括:

以所述MV为背景添加所述音乐文件的伴奏信息,根据所述伴奏信息添加所述歌词信息;

将所述MV、伴奏信息以及歌词信息合并得到个性化MV文件。

在一个实施例中,所述的个性化歌曲文件生成方法,还包括:将所述人声信息与所述个性化MV文件关联保存;获取用户演唱所述个性化MV文件录制的演唱声音,利用所述人声信息对所述演唱声音进行比对,根据比对相似度对用户进行评分。

在一个实施例中,所述的个性化歌曲文件生成方法,还包括:

根据所述伴奏信息生成对应的五线谱,对所述五线谱标注ID后存入个性化歌曲库;

当播放所述个性化歌曲文件时,将所述五线谱与歌词信息对齐并以半透明形式与所述个性化MV文件同步显示,或者根据所述五线谱的音符和节奏构造与该五线谱和弦走向相匹配的渲染动画与歌词信息融合显示。

一种音乐演唱设备,包括:主板,以及分别与所述主板连接的音响系统和显示设备;其中,所述主板还连接麦克风;

所述主板用于执行上述的个性化歌曲文件生成方法的步骤;

所述音响系统用于播放音频数据;

所述麦克风用于拾取用户的演唱声音;

所述显示设备用于在演唱歌曲文件时显示图像内容。

一种计算机设备,其包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行上述的个性化歌曲文件生成方法。

一种计算机可读存储介质,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述的个性化歌曲文件生成方法。

上述个性化歌曲文件生成方法和装置、音乐演唱设备、计算机设备、计算机可读存储介质,从外部的音源获取音乐文件,对音乐文件进行人声与伴奏分离得到相应的人声信息和包含各种乐器的伴奏信息,根据音乐文件的属性信息以及预设匹配规则在素材库中查找音乐文件相匹配的图像内容,再利用音乐文件的歌词信息、伴奏信息以及图像内容生成个性化歌曲文件;该技术方案中,构建了智能化的歌曲文件生成流程,终端设备可以从任意音源输入音乐文件,即可得到喜好的个性化歌曲文件,使得用户可以自由便捷地制作个性化歌曲,满足用户个性化需求,提升用户应用体验。

本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是一个示例的个性化歌曲文件生成方案网络拓扑图;

图2是一个实施例的个性化歌曲文件生成方法流程图;

图3是人声与伴奏分离流程示意图;

图4是重塑有损音质的音乐文件流程图;

图5是匹配MV流程示意图;

图6是深度神经网络的MV匹配算法示意图;

图7是MV的信息id示意图;

图8是歌词信息输出流程图;

图9是生成五线谱流程示意图;

图10是歌曲文件的属性信息结构示意图

图11是用户行为流程示意图;

图12是一个实施例的个性化歌曲文件生成装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作。

本申请的个性化歌曲文件生成方案,可以应用于终端设备上,该终端设备可以是音箱设备、KTV设备、智能手机、平板、个人电脑等等;该终端设备可以通过网络连接到后台的服务器,并可以与音源1-n(n≥1)之间通过WIFI、蓝牙或者数据网络连接,对于音源,可以是智能手机、平板、个人电脑、存储介质或者网络设备等等;本申请提供的个性化歌曲文件生成方法可以通过软件形式部署在终端设备,也可以部署在服务器上,或者以不同功能模块分别部署在终端设备和服务器上;如图1所示,图1是一个示例的个性化歌曲文件生成方案网络拓扑图;图中终端设备可以分别与多种音源连接,传输音乐文件,并结合终端设备和服务器,对于没有带显示功能的终端设备,可以连接显示设备,本申请的技术方案为用户提供了便捷和智能化的个性化歌曲文件生成功能,可以为各个用户建立个性化的歌曲库,用户可以将歌曲文件生成过程中传输的音乐文件,识别的人声文件、伴奏文件等等存入到歌曲库中,以供后续继续使用;同时用户可以将自己的个性化曲库的歌曲文件分享给其他用户进行使用。

结合图1为例,下面实施例将以用户从智能手机将一首音乐传输到终端设备并生成一个个性化MV文件为例进行阐述;参考图2所示,图2是个性化歌曲文件生成方法流程图,主要包括如下步骤:

步骤S10:从外部的音源获取音乐文件,对所述音乐文件进行预处理并保存。

此步骤中,用户可以将外部音源的音乐文件传输到终端设备上,然后终端设备对音乐文件进行处理后存储到个性化歌曲库。

基于本申请的技术方案,可以在终端设备上构建个性化歌曲库管理系统,满足多元化音乐信号源传输,实现用户将音乐文件自由添加到歌曲库进行智能化创作和演唱,用户可通过蓝牙,本地传输(如CD、蓝光、DVD、U盘等),网盘,WIFI(MIRACAST/AIRPLAY/DLNA),同轴光纤,FM等多种输入源,用户可根据个人喜好,选择合适的方式传输音乐文件。

在传输音乐文件后,终端设备可以获取音乐文件的编码格式、码率、采样率、位数、声道数、歌曲名、歌手名、歌词、歌曲数据、文件大小、歌曲时长以及歌曲风格等属性信息,同时判定音乐文件的质量是有损音质(320kbps以下,如MP3、WMA、OGG等)还是无损音质(WAVE、FLAC、AIFF、APE、WAV、WAVPACK、LPAC、TTK等)。

在一个实施例中,为了提升传输效率,可以从多个音源同时传输音乐文件,据此,上述从外部的音源获取音乐文件的方法,可以包括:

s101,从至少一个音源接收音频数据包;其中,音频数据包基于预设的私有协议进行封装。

具体的,以蓝牙为例,由于蓝牙是一种标准的通信协议,为了更好地传输音乐文件,因此,本实施例的方案中,可以设计私有协议并在蓝牙协议上传输音乐文件的数据,智能手机端可以利用传输模块,基于私有协议来封装音乐文件的音频数据,然后通过蓝牙方式传输到终端设备上。

s102,根据所述私有协议解析所述音频数据包得到音频数据;具体的,终端设备接收到音频数据包后,利用私有协议分别对音频数据包进行解析得到音频数据。

s103,根据所述音频数据获取音乐文件。

上述实施例的技术方案,不同的音源都可以将音乐文件传输到终端设备,比如智能手机,平板电脑、个人电脑等,用户还可以将自主录制的一段音频数据传输到终端设备上由此,用户即可通过便捷的操作方式生成个性化歌曲文件。

作为实施例,上述步骤s101的从至少一个音源接收音频数据包,包括:

步骤a、建立与多个音乐数据源之间的通信连接,具体的,多个用户的智能手机可以通过蓝牙或者WiFi传输方式与终端设备建立通信连接。

步骤b、采用时分工作方式接收各个所述设备终端发送的基于所述私有协议封装的音频数据包。

在传输过程中,采用时分工作方式从多个音乐数据源进行传输数据,从而可以将音频数据包边接收边进行后续处理,从而可以提升处理效率和流畅度。

步骤c、根据所述私有协议解析各个音频数据包得到多份音乐文件。

具体的,终端设备接收到各个音频数据包后,分别对各个音频数据包进行解析得到多份音乐文件然后存入缓存中,并由后续处理流程实时进行读取和处理。

在一个实施例中,对于上述对音乐文件进行预处理的技术方案,可以包括如下:

方案一:分别对每一份音乐文件并行运算获得其属性信息;其中,所述属性参数包括采样率、格式和通道位数;根据所述属性信息所述音乐文件是否为高音质音乐文件,若否,则对所述音乐文件进行音质重塑得到一首高音质音乐。

方案二:分别从多份音乐文件中提取同一首音乐的不同乐器演奏的伴奏内容,将各份伴奏内容合并得到一份伴奏文件。

示例性的,多个信号源传输的音乐文件进行多乐器合成,可以如下:

(1)通过歌手名、歌曲名、及歌曲相似度计算来判断多个信号源在传输同一首音乐;如信号源1传输<青花瓷-钢琴奏乐>,信号源2传输<青花瓷-大提琴奏乐>,信号源3传输<青花瓷-古筝>。

(2)对各个音乐文件进行人声伴奏分离,获得对应的乐器伴奏;如信号源1钢琴伴奏,信号源2大提琴伴奏和信号源3古筝伴奏。

(3)根据人声部分进行DP段落相似度计算获得每首音乐的歌曲段落偏差,选择3个音乐文件中音质较高的作为主要合成对象;对每一段计算其偏差,用于修正对应信号源中的伴奏。

(4)根据主要合成对象及其他的信号源的音乐文件进行加乘合成,合成后进入低通滤波器,减少因合成过程产生的高频噪声,最后获得一首青花瓷的钢琴大提琴古筝合奏版的歌曲。

上述技术方案,,为了得到高质量的伴奏,可以从多个网络用户传输同一首音乐的不同乐器演奏的伴奏内容到终端设备上,然后将各份伴奏内容合并得到一份伴奏文件,可以实现网络合唱功能。

方案三:分别从各份音乐文件提取音乐高潮片段,将各份音乐高潮片段进线拼接成一份串烧音乐文件。

示例性的,若该多个信号源的音乐文件进行歌曲串烧操作,可以如下:

(1)为了更好的连接每首音乐的感兴趣部分,将歌曲类型分为主歌串烧和副歌串烧部分。

(2)先根据人声分离获得纯人声部分和伴奏部分,再利用人声部分结合旋律分析,采用隐马尔可夫模型和色度特征,利用viterbi解码获得对应的音乐结构的主歌部分和副歌部分,通过HMM模型计算出每一段之间的相似度,从而精准获得每段边界值。

(3)根据伴奏信息计算歌曲上每一段的节奏、旋律轮廓曲线和情感,判定主歌部分和副歌部分,通过多方判定可定位主歌和副歌位置。

(4)截取每一首歌的主歌部分和副歌部分后,分别进行合并串烧;根据选择的主歌串烧或副歌串烧,每首歌曲之间的连接采用幂指数的淡入淡出算法保持音量的自然过渡,为实现串烧歌曲的响度一致。

上述实施例的方案中,多个用户可以通过智能手机将一首音乐传输到终端设备上,终端设备提取高潮片段拼接成一份串烧音乐文件,从而可以提升用户应用体验;在传输音乐文件后,可以保存为音质格式(dts、wav、APE、FLAC、mp3、aac、mp4、avi、mkv、mpg音频、视频MTV音乐等),保存在终端设备本地及服务器端,终端设备可以执行如下操作:第一,若用户直接播放至效果器或功放连接的音箱设备或耳机,则播放处理后的音乐文件;第二,在终端设备的性能允许的情况下,进行终端设备本地存储和实时操作;第三,终端设备上传服务器,由服务器驱动执行音频处理操作。

步骤S20:对所述音乐文件进行人声与伴奏分离,得到相应的人声信息和包含各种乐器的伴奏信息。

此步骤中,终端设备对音乐文件进行人声与伴奏分离,得到音乐文件中的人声信息以及各种乐器对应的伴奏信息。

可以根据音乐文件的质量来选择分离方式,对于无损音质的音乐文件,可以直接采用人声分离技术提取人声信息、伴奏信息和乐器组音轨信息等,对于有损音质的音乐文件,可以采用音质提升技术,把有损音乐文件尽可能的提升为高质量的伴奏音乐。

作为一个实施例,为丰富用户个性化歌曲库,当用户通过蓝牙传送歌曲到达终端设备端时,终端设备唤醒人声分离功能,采用基于盲源分离的多音轨分离技术,结合乐器音色库分离出每个唱歌者的演唱的人声部分以及伴奏部分,进一步将每个乐器分离成独立的部分,从而方便用户后续进行个性化创作。

参考图3所示,图3是人声与伴奏分离流程示意图;据此,上述对音乐文件进行人声与伴奏分离的技术方案,可以包括如下:

s211,对输入的音乐文件进行STFT(Short-Time Fourier Transform,短时傅立叶变换)频谱分析,并进行对数梅尔频谱转化得到梅尔频谱。

示例性的,对输入的音乐信号进行STFT频谱分析,并进行对数梅尔频谱转化,获取与模型训练时同样的语音信号特征。

s212,利用预先训练的人声网络、伴奏网络和乐器网络对所述梅尔频谱进行分析获得对应的频谱图,根据频谱图计算人声频谱在整个音乐频谱中所占的比例以及伴奏频谱在整个音乐频谱中所占的比例,分别根据该比例与音乐频谱进行乘积得到人声频谱和伴奏频谱。

示例性的,对梅尔频谱分别结合人声网络、伴奏网络和乐器网络,从而获得对应的频谱图,根据频谱信息计算人声谱在整个音乐谱中所占用的比例,根据伴奏谱获得伴奏在整个音乐谱中所站的比例,根据该比例与音乐谱进行乘积,即可获得人声频谱和伴奏频谱。

s213,对所述人声频谱和伴奏频谱进行ISTFT(短时傅立叶变换逆变换)分析,将人声频谱和伴奏频谱分别转化为人声信息和伴奏信息。

示例性的,对获得人声谱和伴奏谱进行ISTFT将频谱转化为人声信号和伴奏信号,并保存成对应的wav等格式,从而为用户创作提供伴奏和人声素材。

s214,计算伴奏信息每种乐器的音乐信号谱,并保存为单独的乐器伴奏。

示例性的,采用上述类似方式,计算伴奏中存在的每种音乐信号谱,并保存成对应的wav、midi等格式文件,为用户创造歌曲提供单独乐器伴奏。

上述人声分离技术,可分离出多个人声音轨,纯伴奏音轨以及每个乐器的音轨信息,用户可以设计多人合唱模式,也可以选择某个乐器的结合,从而达到多元化创造的目的。

对于预先训练的人声网络、伴奏网络和乐器网络,可以利用歌曲库存已有的歌曲文件进行模型训练,将歌曲库中的人声和伴奏及其对应的乐器音色库,分别构建人声网络,伴奏网络和乐器网络(支持128种乐器声音的演奏)。

在一个实施例中,其可以采用如下方法进行训练,包括如下步骤:

(1)将歌曲库中预存的人声和伴奏及其对应的乐器音色库,分别构建人声网络,伴奏网络和乐器网络。

具体的,分别对带伴奏的音乐、纯人声、纯伴奏以及纯乐器音色四种类型的素材进行STFT分析,由于人声在梅尔频带上更能体现出人声的特点,因此,每种类型的素材均由对数梅尔滤波器组进行转化可凸显人声特征,使人声分离损失度降低。

(2)分别对带伴奏的音乐、纯人声、纯伴奏以及纯乐器音色四种类型的素材进行STFT分析和对数梅尔频谱转化。

分别对带伴奏的音乐、纯人声、纯伴奏、纯乐器音色四种类型的素材进行小波分析,补偿STFT在信号非平稳性的分析上的缺陷,并过滤掉不相关噪声部分,增强每种类型的基频稀疏性,提升人声的特征提取,提高声音还原的质量。

对乐器音色库进行ADSR分析,由于每个音色库中的每个乐器都有不同的发声包络,其对应的音色也大不相同,其主要存在于ADSR(attack,decay,sustain,release)中,构成音色的主要成分,该特征也可以用于分析伴奏中的乐器类型,进一步进行乐器分离,实现用户个性化乐器背景创作歌曲的功能,包络提取公式如下:

式中,env表示包络,framelen表示帧长度,x

(3)对所述音乐进行盲源分离分别输入人声网络、伴奏网络和乐器网络,得到纯人声音色谱、纯伴奏音色谱以及纯乐器音色谱。

(4)将纯人声音色谱、纯伴奏音色谱以及纯乐器音色谱分别与纯人声音轨幅度谱、纯伴奏音轨幅度谱以及纯乐器音轨幅度谱进行比对,采用曼哈顿距离计算二者相似度,并采用取均值的方式获得损失函数,优化并调节盲源分离的参数。

具体的,将把带伴奏的音乐,所提取的盲分离网络所获得的纯人声,纯伴奏,纯乐器音色谱进行比对,采用曼哈顿距离可计算二者之间的相似度,并采用取均值的方式来作为损失函数,不断优化,调节盲分离的参数。

Distance=Σ|x

mean=0.5*(Σ(a

式中,mean表示损失函数,Distance表示曼哈顿距离。

作为另一个实施例,为了得到高清伴奏音乐,对于各种音源获取的音乐文件,当音源质量为有损音质时,可以进行高清音质重塑并自动存入用户的个性化歌曲库。

参考图4,图4是重塑有损音质的音乐文件流程图;据此,上述对对所述音乐文件进行音质重塑得到一首高音质音乐的技术方案,可以包括如下:

s221,将音乐文件分离成人声信息和初始伴奏信息。

s222,对初始伴奏信息中的乐器进行识别。

s223,利用预先建立的乐器音色库中记录的各种乐器对应高音质的音色,分别对初始伴奏信息中的各种乐器进行音色补偿,得到高清的伴奏信息。

上述有损音乐的伴奏重塑技术,对于有损音质的音乐文件,可以进行原伴奏乐器构造、多风格乐器构造和原伴奏乐器EQ补偿构造;对于原伴奏乐器构造和多风格乐器构造,可以采用波表合成技术,对于原伴奏乐器EQ补偿构造,可以采用自动EQ补偿技术。

示例性的,可以根据有损音乐全谱段的音高pitch,节奏tempo,音符note,音符时长等特征生成对应midi文件,通过乐器音色库查找最相似的乐器,重新生成高清伴奏音乐,根据歌曲中的乐器信息,采用自动均衡技术,对歌曲声音频段进行补偿,生成高清伴奏音乐,

例如:乐器为贝斯,则结合歌曲的节奏、音符、音高信息模拟歌曲弹奏过程自动生成对应的伴奏曲,结合人声还原成原始音乐,生成24bit采样率为96K或192K的wav、flac、ape、wave、aiff等格式的文件。

示例性的,由于每首音乐伴奏均由一种或多种乐器组合而成,还可以利用高音质的乐器音色库,经过一种或多种的串联组合形成对应的频响曲线,根据频响曲线的对比可知对应缺失的音色,根据对应频率进行EQ补偿,采用遗传算法计算最优Q值和频率值f,及EQ组合个数,从而达到重塑歌曲伴奏的目的。

另外,也可以根据歌曲中乐器信息(音高,节奏,音符,音符时长),乐器音色库(如笛子、架子鼓、贝斯、吉他、钢琴等),提供多种风格(摇滚、乡村、抒情)的伴奏音乐,保存为24bit,192Kps的高清音频文件,用户亦可选择不做任何信号处理,输出原始音质。

上述三种类型的重塑伴奏信息均可以保存在本地及服务器的个性化歌曲库中,为用户下次使用提供最佳推荐。

作为又一个实施例,为了更加快速便捷地分离出人声和伴奏,上述对音乐文件进行人声与伴奏分离的技术方案,可以包括如下:

s231,获取所述音乐文件中人声的发声对象的其他声音文件。

s232,根据所述其他声音文件提取所述发声对象的声纹信息。

s233,利用所述声纹信息生成人声滤波器,利用所述人声滤波器对所述音乐文件进行滤波得到人声信息,并提取出伴奏信息。

对于声纹信息,在一个实施例中,可以通过收集并保存到声纹库中进行调用,该方法还包括:

获取多个音乐文件的发声对象的音视频文件;对所述音视频文件提取声纹信息,并打上所述发声对象的标签;将所述发声对象的声纹信息及其标签存储到声纹库中。

上述实施例的方案中,可以根据终端设备的性能要求,若终端设备性能允许情况下,在终端设备本地执行实时人声与伴奏的分离,把分离后的原唱音轨(speak id)、伴奏音轨(Accompaniment id)、乐器音轨id分别存在终端设备本地歌曲库,为用户提供原唱和伴奏切换,并存储对应的歌曲信息,如歌手名(singer id),歌词(lyrics id),文件长度(filelen)等;原唱和伴奏可根据用户需求选择单音轨或双音轨,并保存原声伴奏单音轨和原声伴奏立体声音轨。

S30,获取所述音乐文件的属性信息,根据所述属性信息以及预设匹配规则在素材库中查找所述音乐文件相匹配的图像内容。

此步骤中,属性信息可以是歌手名、专辑、歌词、伴奏、乐器、歌曲名、歌曲风格等等,这些属性信息可以从音乐文件中提取,也可以通过对音乐文件进行人声信息和伴奏信息分离过程中得到;匹配的图像内容可以是MV、歌手图片、风格多样的数字动画等等。

作为一个实施例,在匹配MV时,为了提升匹配效率,参考图5所示,图5是匹配MV流程示意图;对于匹配过程,可以利用从音乐文件中获取的歌手名/歌曲/专辑id,然后直接查找匹配到对应的歌手MV或者专辑;其次,可以从音乐文件中获取的歌词信息,然后进行MV歌词相似度计算,基于神经网络MV匹配算法来匹配到相应的MV,再者,可以利用音乐文件的特征分析方法,对于音色、情感或者节奏等特征信息,然后计算其与各个MV之间的欧氏距离,从而匹配到相应的MV。

上述实施例的方案,首先对歌曲类型/歌词自动搜索匹配对应风格MV,为用户推荐最合适的MV,根据音乐文件的歌手名,歌曲名,专辑,风格等信息对应MV库进行粗略的ID查找,若无对应ID,则根据传入音乐文件的音乐特性(如音色、情感、节奏)粗略选取对应情感节奏的MV文件;然后通过获取到的歌词进行MV歌词相似度计算,以此来判定那个MV的匹配对较高,以此来满足用户个性化需求的MV,以提高MV匹配度,极大的降低用户创作难度,提升用户创作满意度。

示例性的,对于采用歌词相似度计算方法,可以包括如下:

s301,根据所述属性信息在素材库中进行属性信息ID搜索,获取包含多个MV的MV候选集;其中,所述素材库中存储多个MV及其对应标注的若干个属性信息ID。

s302,根据MV候选集的MV歌词属性信息,与所述音乐文件的歌词文本进行相似度计算,根据相似度大小确定相匹配的MV。

另外,基于上述实施例的方案,可以设计基于卷积神经网络的MV匹配算法、基于ID快速查找法和基于音乐特征分析法来联合进行MV匹配过程,从而可以避免整体模型陷入局部最优的困境,据此,匹配过程可以如下:

(1)先进行粗略的ID匹配方式,搜索最有可能的MV,以降低算法匹配的复杂度。

从MV歌曲库内保存的MV进行特征提取,把音乐歌词高维语义提取为低维语义,对提取后的特征采用离差平均和来确定单个音乐与全MV的偏差距离,根据该距离获得对应的后验概率,参考图6,图6是深度神经网络的MV匹配算法示意图;其中,概率越高,其匹配度越高,以此来粗略选择MV,计算过程如下:

L

L

y=f(W

式中,W

(2)若无对应MV的ID,则根据音乐特征信息(音色,情感,节奏进行分析),以获得局部搜索。

利用歌曲库中所有的MV的信息id,如图7所示,图7是MV的信息id示意图;利用人声分离后获得的歌词id,专辑id,歌手名id,歌名id,乐器id,通过逆向查找方法,由歌曲名→歌手名→歌词的方式锁定最终的MV。

(3)根据每首MV所特有的歌词特征信息,与该音乐歌词进行文本相似度计算,相似度较高的作为最佳MV推荐;节奏采用(多特征分析法hfc,rms,melflux,infogain)经过马尔可夫模型获得对于节拍点,通过获得节拍点换算成BPM,计算每个MV的余弦相似度,采用谐波分量分析法和包络计算法结合每个乐器音色的ADSR进行分析;采用经过训练的情感模型,预测该音乐的情感(悲伤,愉悦、欢快、愤怒或者性感等)。

上述方法可提供更贴近用户自创音乐的MV,可有效平衡每种算法的局限性,使其跳出局部最优,寻找最优MV,极大提高的MV匹配的准确性,提高用户的创作热情,同时降低算法复杂度。

S40,获取所述音乐文件的歌词信息,根据所述歌词信息、伴奏信息以及图像内容生成个性化歌曲文件。

具体的,可以采用歌词自带和歌词识别/获取的方式提高歌词信息输出的精准度,若终端设备接收的音乐文件中自带歌词信息,则歌词配对时,直接选用该歌词作为MV歌词id,存入个性化歌词库中,保证每个用户的音乐文件的歌词的准确性和个性化,保证用户自创歌曲的完整性。

作为一个实施例,若终端设备接收的音乐文件中无自带歌词信息,采用联合方式联合获取歌词,以提高歌词输出的准确性,参考图8,图8是歌词信息输出流程图;据此,对于上述获取所述音乐文件的歌词信息的技术方案,可以包括如下:

s401,根据所述属性信息在歌词库中进行属性信息ID搜索获得所述音乐文件的第一歌词;

具体的,先进行歌词ID搜索法,先进行粗略的歌词搜索,歌曲库获取对应歌曲名,歌手,专辑等歌曲信息的歌词,可以降低算法复杂度。

s402,对所述人声信息进行语言识别获得所述音乐文件的第二歌词;具体的,通过语音识别方式获得对应歌词。

s403,通过网络爬取方式从公开的歌词网站上获得所述音乐文件的第三歌词;具体的,通过在合法公开的歌词网站上进行网络爬取获取对应歌曲名、歌手以及专辑等歌曲信息,进而获取其歌词。

s404,根据所述第二歌词确定的副歌位置信息,对所述第一歌词和第三歌词进行纠正,得到所述音乐文件的歌词信息;

由于在获取歌词过程中容易存在副歌部分重复位置对应错误,为了解决副歌部分对应错误问题,利用歌词文本识别方法,通过语音识别方式相似度较低的识别错误的歌词进行修正,从而达到歌词纠正的目的,提高歌词的准确度。

为了是使得用户可以在个性化MV文件上跟着五线谱演奏,或者提供五线谱学习体验,在一个实施例中,本申请的技术方案还可以增加五线谱显示功能,据此,本申请的个性化歌曲文件生成方法,在步骤S40中还可以包括:

根据所述伴奏信息生成对应的五线谱,对所述五线谱标注ID后存入个性化歌曲库;当播放及演唱所述个性化歌曲文件时,还可以同时显示五线谱。

示例性的,对于五线谱的显示方式,可以包括如下:

方式一:将所述五线谱与歌词信息对齐并以半透明形式与所述个性化MV文件同步显示。

上述实施例的方案,实时根据伴奏生成对应五线谱,并把五线谱id独立存入本地歌曲库,当用户演奏歌曲时,五线谱与歌词对齐,同步显示在大屏幕上,并且以半透明的形式,保证用户可清晰看到五线谱的同时,也不影响MV的美观性。

方式二:根据所述五线谱的音符和节奏构造与该五线谱和弦走向相匹配的渲染动画与歌词信息融合显示。

具体的,终端设备根据对应歌词或歌手或歌曲信息,自动配对对应MV(MV id)或图片(photo id),若当前歌曲无对应MV或图片与之配对,则根据歌曲节奏信息及歌词信息,自动生成数字化动态渲染场景(Dynamic scene id),同时结合五线谱的和弦走向,可创造更炫酷的动态场景,独立保存至本地歌曲库。根据伴奏生成对应五线谱,并把五线谱id独立存入本地歌曲库,当用户演奏歌曲时,五线谱与歌词对齐,同步显示在大屏幕上,并且以半透明的形式,保证用户可清晰看到五线谱的同时,也不影响MV的美观性。

上述实施例的方案,对于无对应的MV的个性化MV文件,则根据五线谱的音符,节奏,构造与该五线谱和弦走向相匹配的渲染动画与歌词动画融合,营造炫酷的动画场景。为后期midi创作提供五线谱支撑,用户可根据已有五线谱,用midi键盘进行即兴演奏,自建音色库有上百种乐器供用户进行多乐器联合演奏。

在一个实施例中,对于五线谱生成方法,参考图9所示,图9是生成五线谱流程示意图;可以通过音频信号特征分析(音符、音符时长、速度、节拍以及调号等),根据midi文件的生成格式进行编译,从而生成对应的midi文件,并保存在服务器上。此外根据音频对应的音频信号特征,采用节拍识别算法获得对应的速度,采用基音判别法(STFT获取基频)获取对应的音符和音符时长(采用持续时间来判定),对于持续时间,计算公式如下:

其中,Y(w,t-jP)为基音频率点为w所持续的能量值,以此来判定音符持续时间的长度。按照12个音阶(C、C#、D、D#、E、F、F#、G、G#、A、A#、B),把全谱所有基音对应音阶放置在一个b矩阵(亦称为色度矩阵)中,若所对应的音阶数量最多,且该音阶以后的基音数量也相对较多,则认为该音阶即为该歌曲的调号;根据常用拍号(4/4,6/8,3/8)和计算所得的节拍持续时间,把连拍时间换算成1000的duration值,分别采用多种连拍组合(750+250,500+250+250,333+333+333,333+666,165+165+165+165+165+165(8分音符),165+165+333+333(16分音符),165+165+666),若计算所得duration值不在该值范围内,则映射到该范围内。

在一个实施例中,对于步骤S40中根据所述歌词信息、伴奏信息以及图像内容生成个性化歌曲文件的过程,包括如下:

以所述MV为背景添加所述音乐文件的伴奏信息,根据所述伴奏信息添加所述歌词信息;将所述MV、伴奏信息以及歌词信息合并得到个性化MV文件。

在一个实施例,本申请的个性化歌曲文件生成方法,还可以将所述人声信息与所述个性化MV文件关联保存;据此,当利用个性化MV文件进行演唱时,获取用户演唱所述个性化MV文件录制的演唱声音,利用所述人声信息对所述演唱声音进行比对,根据比对相似度对用户进行评分。

例如,用户生成了一个个性化MV文件,然后用于唱卡拉OK娱乐,基于对现有评分系统的改进,本申请利用分离人声信息和伴奏信息过程中得到的人声信息对用户唱歌录制的声音进行比对,从而可以更加准确地反应出用户的声音与原唱声音之间的相似度。

上述实施例的方案,相对于常规的标准人声识别模式,增强了评分准确性,提升了用户体验。

综合上述实施例的方案,可以设计一个新个性化歌曲文件库,由音源输入到输出,娱乐、编辑,学习、创作于一体的管理系统,打造一个专人专用,互联网化私人歌曲库管理系统;通过多音源接收新乐曲,既能实时传输音频到音箱或耳机,也能在本地实时进行人声伴奏分离技术,或在服务器端进行人声伴奏分离技术,实时分离伴奏与语音,然后智能化进行MV背景、歌手图片以及风格多样的数字动画渲染自动匹配,同时还可以生成五线谱自动保存到私人个性化歌曲库,为高级玩家和普通用户提供视觉和听觉体验。

当前用户使用智能手机连接蓝牙音响播放或演唱音乐时,一般只能依靠智能手机屏幕显示歌词或者MV进行实时演唱,体验感差,而采用本申请的技术方案,通过音响可以实时制作个性化歌曲文件,可以通过连接的显示设备来实时字幕滚动,五线谱同步,用户实时创作、实时演唱、实时学习以及大屏互动的超高娱乐体验;而且用户可以在创作属于自己的歌曲文件,歌曲文件自动存入私人账户的个性化歌曲库中或存入本地设备和网络设备中,参考图10,图10是歌曲文件的属性信息结构示意图,也可分享给好友。

参考图11所示,图11是用户行为流程示意图;用户行为可以包括如下:

(一)当用户发起点歌请求时,播放器从本地/服务器仓库调用歌曲id,根据歌曲id提供对应的歌词,伴奏,场景,五线谱进行整合成一个完整的音乐作品供用户演唱。

(二)用户可发起分享,通过智能手机操作或大屏显示器互动形式,把创作后的音乐分享给好友,好友获得链接后,可点唱该歌曲,也可保存在自己的本地个性化歌曲库中,以便日后点歌,可直接播放及演唱该歌曲。分享后的歌曲可以获得好友的点赞和点评,增加好友间互动体验。

(三)实时五线谱;

(1)对高级玩家,可根据自身的水平,根据歌曲所生成的五线谱,结合midi键盘,根据乐器音色库,自行创作音乐,生成的音乐自动保存在个人账户中。

(2)对普通玩家,可为用户体用视觉和听觉的演奏学习体验,让用户更快更轻松的通过midi键盘,熟悉每个音所代表的音符,为普通用户提供一种轻松音乐入门的学习体验。

(四)用户可发起保存请求时,可采用蓝牙、WIFI、本地传输(CD,蓝光,DVD,U盘)或者网盘等方式保存,终端设备可以支持歌曲/歌曲+mv重新编码保存,支持多种编码格式(dts、wav、APE、FLAC、mp3、aac、mp4、avi、mkv、mpg音频、视频MTV音乐)。

(五)用户可发起乐器学习请求,根据传输的歌曲,自带乐器或适用midi键盘的方式,可学习对应乐器的乐谱,终端设备根据五线谱生成对应乐器的指法,实现歌曲文件与指法同步的效果。

下面阐述个性化歌曲文件生成装置的实施例。

参考图12所示,图12是一个实施例的个性化歌曲文件生成装置的结构示意图,包括:

音乐传输模块10,用于从外部的音源获取音乐文件,对所述音乐文件进行预处理并保存;

人声分离模块20,用于对所述音乐文件进行人声与伴奏分离,得到相应的人声信息和包含各种乐器的伴奏信息;

图像匹配模块30,用于获取所述音乐文件的属性信息,根据所述属性信息以及预设匹配规则在素材库中查找所述音乐文件相匹配的图像内容;

歌曲合并模块40,用于获取所述音乐文件的歌词信息,根据所述歌词信息、伴奏信息以及图像内容生成个性化歌曲文件。

本实施例的个性化歌曲文件生成装置可执行本公开的实施例所提供的一种个性化歌曲文件生成方法,其实现原理相类似,本公开各实施例中的个性化歌曲文件生成装置中的各模块所执行的动作是与本公开各实施例中的个性化歌曲文件生成方法中的步骤相对应的,对于个性化歌曲文件生成装置的各模块的详细功能描述具体可以参见前文中所示的对应的个性化歌曲文件生成方法中的描述,此处不再赘述。

下面阐述音乐演唱设备的实施例。

本申请提供的音乐演唱设备,其可以进行音乐播放,图像播放和音乐演唱等功能,具体的,其结构可以包括:主板,以及分别与主板连接的音响系统和显示设备等等;其中,主板还连接麦克风;

在使用中,主板用于执行上述的个性化歌曲文件生成方法的步骤;音响系统用于播放音频数据;如音乐文件,用户演唱的歌声;麦克风用于拾取用户的演唱声音;显示设备用于在演唱歌曲文件时显示图像内容,对于显示设备,可以采用大型触摸屏系统。

下面阐述本申请的计算机设备的实施例,该计算机设备,其包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据上述任意实施例的个性化歌曲文件生成方法。

下面阐述本申请的计算机可读存储介质的实施例,,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述任意实施例的的个性化歌曲文件生成方法。

上述个性化歌曲文件生成装置、音乐演唱设备、计算机设备、计算机可读存储介质的技术方案中,构建了智能化的歌曲文件生成流程,终端设备可以从任意音源输入音乐文件,即可得到喜好的个性化歌曲文件,使得用户可以自由便捷地制作个性化歌曲,满足用户个性化需求,提升用户应用体验。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号