首页> 中国专利> 一种歌曲演唱的评价方法、设备及介质

一种歌曲演唱的评价方法、设备及介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请公开了一种歌曲演唱的评价方法、设备及介质，包括：获取标准歌曲中的节拍信息；获取用户演唱所述标准歌曲的用户人声信号，对用户人声信号进行逐字分割，提取每个字起始点的时间信息，得到用户人声信号的字起始点时间信息；从节拍信息中确定与字起始点时间信息中每个字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息；对字起始点时间信息与目标节拍点时间信息进行比对，得到用户人声信号中每个字起始点的时间信息与目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值；基于每个字起始点对应的时间偏差值评价歌曲演唱。这样，能够提升歌曲演唱的评价的准确度，以及歌曲演唱的评价的效率。

著录项

公开/公告号CN113096689A

专利类型发明专利
公开/公告日2021-07-09

原文格式PDF
申请/专利权人腾讯音乐娱乐科技(深圳)有限公司;
展开▼

申请/专利号CN202110360784.9
发明设计人闫震海;
展开▼

申请日2021-04-02
分类号G10L25/51(20130101);G10L25/81(20130101);G10L15/04(20130101);G10H1/40(20060101);
代理机构44285 深圳市深佳知识产权代理事务所(普通合伙);
代理人张金香
地址 518052 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)
入库时间 2023-06-19 11:45:49

说明书

技术领域

本申请涉及音频处理技术领域，特别涉及一种歌曲演唱的评价方法、设备及介质。

背景技术

当前，用户录制自己的唱歌版本后，往往希望有人能够从专业的角度对自己的节奏感做出准确的评价和指导。而现有的评价歌曲演唱在背景音乐中是否合拍的方法，主要依靠人工试听，检测采集到的用户人声信号与原唱的人声信号是否完全对齐。但人工审核时，只要依靠审核人的听觉，审核过程过于依赖主观感受。并且，人工审核费时费力，还存在明显的个体差异，面对用户数量巨大的场景，单纯的人工审核无法及时满足广大用户的需求。综上，在实现本发明过程中，发明人发现现有技术中至少存在歌曲演唱的评价依赖主观感受，不够准确，以及效率较低的问题。

发明内容

有鉴于此，本申请的目的在于提供一种歌曲演唱的评价方法、设备及介质，能够提升歌曲演唱的评价的准确度，以及歌曲演唱的评价的效率。其具体方案如下：

第一方面，本申请公开了一种歌曲演唱的评价方法，包括：

获取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息；

获取用户演唱所述标准歌曲的用户人声信号；

对所述用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息；

从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息；

对所述字起始点时间信息与所述目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值；

基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱。

可选的，所述从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息，包括：

从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息的时间差最小的节拍点的时间信息，得到目标节拍点时间信息。

可选的，所述获取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息，包括：

获取标准歌曲的原唱音频；

确定所述原唱音频的左声道信号与右声道信号的差信号；

利用预设节拍检测算法基于所述差信号提取所述标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息。

可选的，所述获取用户演唱所述标准歌曲的用户人声信号，包括：

播放所述标准歌曲对应的背景音乐；

用户基于所述背景音乐进行演唱以获取所述用户人声信号；

其中，所述背景音乐的获取过程包括：

获取所述标准歌曲的标准音频；其中，所述标准音频为原唱音频或伴奏音频；

基于所述标准歌曲的节拍信息在所述标准音频相应的位置添加节拍提示音频，得到所述背景音乐。

可选的，所述节拍提示音频的生成过程包括：

基于所述标准音频的采样率确定单频信号；

对所述单频信号进行幅度调制，生成幅度随时间变化的节拍提示音频。

可选的，所述基于所述标准歌曲的节拍信息在所述标准音频相应的位置添加节拍提示音频，得到所述背景音乐，包括：

以所述节拍信息中每个节拍点的时间信息为起点，从所述标准音频中截取与所述节拍提示音频等长的信号，得到每个节拍点对应的信号片段；

将所述节拍提示音频与每个节拍点的所述信号片段混合，得到每个节拍点对应的混合信号；

将所述混合信号基于所述节拍信息放置在所述标准音频中每个节拍点对应的位置，得到所述背景音乐。

可选的，所述基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱，包括：

将每个所述字起始点对应的所述时间偏差值与预设偏差门限进行比对；

确定所述时间偏差值大于所述预设偏差门限的字起始点的数量，得到节拍不准确字起始点数量；

基于节拍不准确字起始点数量和所述用户人声信号的字起始点总数评价歌曲演唱。

可选的，所述基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱，包括：

基于每个字起始点的所述时间偏差值绘制二维差值图像，并对所述二维差值图像进行显示，以便基于所述二维差值图像评价歌曲演唱；其中，所述二维差值图像的横轴为每个字起始点对应的歌词，纵轴为每个字起始点对应的所述时间偏差值。

第二方面，本申请公开了一种歌曲演唱的评价装置，包括：

标准歌曲节拍信息获取模块，用于获取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息；

用户人声信号获取模块，用于获取用户演唱所述标准歌曲的用户人声信号；

字起始点时间信息获取模块，用于对用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息；

目标节拍点时间信息获取模块，用于从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息；

节拍点时间偏差值确定模块，用于对所述字起始点时间信息与目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值；

歌曲演唱评价模块，用于基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的歌曲演唱的评价方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的歌曲演唱的评价方法。

可见，本申请获取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息，获取用户演唱所述标准歌曲的用户人声信号，并对用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息，然后从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息，之后对所述字起始点时间信息与目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值，最后基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱。这样，比对用户人声信号中每个字起始点的时间信息和标准歌曲中与用户人声信号中每个字起始点的时间信息对应的节拍点的时间信息，得到用户人声信号中每个字起始点与标准歌曲中相应节拍点的时间偏差值，也即，得到了比较准确的评价歌曲演唱是否合拍的参考数据，相对于人工试听评价，能够提升歌曲演唱的评价的准确度，以及歌曲演唱的评价的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的歌曲演唱的评价方案所适用的系统框架示意图；

图2为本申请公开的一种歌曲演唱的评价方法流程图；

图3为本申请公开的一种标准歌曲的节拍信息与用户人声信号的字起始点时间信息的比对示意图；

图4为本申请公开的一种具体的二维差值图像；

图5为本申请公开的一种具体的歌曲演唱的评价方法流程图；

图6为本申请公开的一种具体的歌曲演唱的评价方法流程图；

图7为本申请公开的一种歌曲演唱的评价装置结构示意图；

图8为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有的评价歌曲演唱在背景音乐中是否合拍的方法，主要依靠人工试听，检测采集到的用户人声信号与原唱的人声信号是否完全对齐。但人工审核时，只要依靠审核人的听觉，审核过程过于依赖主观感受。并且，人工审核费时费力，还存在明显的个体差异，面对用户数量巨大的场景，单纯的人工审核无法及时满足广大用户的需求。为此，本申请实施例提供了一种歌曲演唱的评价方案，能够提升歌曲演唱的评价的准确度，以及歌曲演唱的评价的效率。

本申请的歌曲演唱的评价方案中，采用的系统框架具体可以参见图1所示，具体可以包括：后台服务器和与后台服务器建立通信连接的若干数量的用户终端。其中，用户终端包括但不限于平板电脑、笔记本电脑、智能手机、个人电脑(personal computer，PC)，此处不做限定。

本申请中，后台服务器用于获取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息；用户终端用于在用户演唱所述标准歌曲时采集用户人声信号，并传输至后台服务器，相应的，后台服务器执行以下步骤：对用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息；从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息；对所述字起始点时间信息与目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值；基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱，然后将评价结果推送到对应的用户终端显示。

参见图2所示，本申请实施例公开了一种歌曲演唱的评价方法，包括：

步骤S11：获取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息。

其中，所述节拍信息即beat信息，是衡量音乐节奏的单位，通常由强拍和弱拍组成，以时间点的形式出现在歌曲的不同位置。标准歌曲为评价用户歌曲演唱的标准。

步骤S12：获取用户演唱所述标准歌曲的用户人声信号。

步骤S13：对用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息。

也即，提取每个字的起始位置的时间信息，得到字起始点时间信息。

步骤S14：从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息。

在具体的实施方式中，可以从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息的时间差最小的节拍点的时间信息，得到目标节拍点时间信息。

在具体的实施方式中，可以确定节拍信息对应的第一向量以及字起始点时间信息对应的第二向量，比较第一向量和第二向量，从第一向量中，依次找到与第二向量中每一个字起始点的时间信息之间的时间差最小的节拍点的时间信息，得到标准歌曲的目标节拍点时间信息。

例如，参见图3所示，图3为本申请公开的一种标准歌曲的节拍信息与用户人声信号的字起始点时间信息的比对示意图。由于标准歌曲中节拍出现的频率比用户人声信号高，所以第一向量比第二向量有更多的时间信息。比较两个向量的时间信息后，可以发现一部分用户人声信号的字起始点是与标准歌曲的节拍点相吻合的，如图3中第二向量中的方块1。另一部分则不一致，如图3中第二向量中的方块2和方块3。从图3可以看出。第一向量中存在一些与用户人声信号无关的节拍点的时间信息。找到第1、3、6个节拍点与第二向量的前3个字起始点的时间差最小。剔除第一向量中的第2、4、5个节拍点的时间信息，便可得到标准歌曲中与用户人声信号相关的节拍点的时间信息，即目标节拍点时间信息。需要指出的是，这是基于用户录制的用户人声信号偏差不大的假设条件下完成的。

步骤S15：对所述字起始点时间信息与目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值。

步骤S16：基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱。

在一种具体的实施方式中，可以将每个所述字起始点对应的所述时间偏差值与预设偏差门限进行比对；确定所述时间偏差值大于所述预设偏差门限的字起始点的数量，得到节拍不准确字起始点数量；基于节拍不准确字起始点数量和所述用户人声信号的字起始点总数评价歌曲演唱。

具体的，可以利用节拍不准确字起始点数量和所述用户人声信号的字起始点总数的比值评价歌曲演唱的节奏。

例如，确定目标节拍点时间信息对应的第三向量，以及字起始点时间信息对应的第二向量，第二向量中任一字起始点的时间信息与第三向量中相应的节拍点的时间信息之间的时间偏差值大于预设偏差门限，则判定用户人声信号在相应节拍点的节奏是不准确的，当第二向量中任一字起始点的时间信息与第三向量中相应的节拍点的时间信息之间的时间偏差值小于等于预设偏差门限时，则判定用户人声信号在相应节拍点的节奏是准确的，统计节拍不准确字起始点的数量，得到节拍不准确字起始点数量，计算节拍不准确字起始点数量与用户人声信号的字起始点总数的比值，得到歌曲演唱的不合拍率，即VocalAcc＝M/N；

其中，M表示节拍不准确字起始点数量，N表示第二节拍向量的向量长度，即用户人声信号的字起始点总数。

在具体的实施方式中，可以利用不合拍率计算歌曲演唱得分。

并且，在具体的实施方式中，可以将节拍不准确字起始点对应的节拍点的歌词进行高亮显示，以清晰的为用户指出节奏上存在不足的字词。

在另一种具体的实施方式中，可以基于每个字起始点的所述时间偏差值绘制二维差值图像，并对所述二维差值图像进行显示，以便基于所述二维差值图像评价歌曲演唱；其中，所述二维差值图像的横轴为每个字起始点对应的歌词，纵轴为每个字起始点对应的所述时间偏差值。

例如，参见图4所示，图4为本申请实施例公开的一种具体的二维差值图像。具体的，计算第三向量与第二向量每个元素之间的差值，得到目标向量，然后在直角坐标系中，绘制目标向量对应的二维差值图像，横轴为目标向量的元素标识，也即每个字起始点，也为相应节拍点对应的歌词，一一对应歌词的每一个字，纵轴为元素对应的差值大小。需要说明的是，理想的图形应该是一条集中于0值的水平线。差值大于0表示该歌词用户人声信号节拍快了；差值小于0表示该歌词用户人声信号节拍慢了。如果多数元素集中在零点附近，少数元素点偏离零点，则说明用户人声信号整体的节奏把握是比较准确的，只有部分点没有跟上节拍。如果多数元素集中在某一数值范围附近，呈现水平直线的样式，则说明人声整体的节奏是比较稳定的，只是与歌曲的音乐节奏存在一个固定的时间差，也即整体慢半拍或快半拍。以上两种情况均为水平直线，是节奏把握比较准确的。其余形状的图形可对照分析用户人声信号的节拍差值特征。

基于二维差值图像能够更加直观的看到用户人声信号的节拍特点，快速锁定不在节奏不准确的歌词位置和偏离程度。这种直观便捷的评价呈现效果，可以为用户提高自己的节奏水平起到指导作用。另外，用户人声信号是否在节拍上，并不完全依赖于是否与原歌曲的歌词位置一致。只要符合一定的节拍效果，具体的，差值二维图像呈水平直线，与原唱不一致也没问题。这样，打破了固有的刻板标准，方便用户在准确范围内有不同于原唱的发挥。

当然，在一些实施例中，可以将每个所述字起始点对应的所述时间偏差值与预设偏差门限进行比对；确定所述时间偏差值大于所述预设偏差门限的字起始点的数量，得到节拍不准确字起始点数量；基于节拍不准确字起始点数量和所述用户人声信号的字起始点总数评价歌曲演唱，并且基于每个字起始点的所述时间偏差值绘制二维差值图像，并对所述二维差值图像进行显示，以便基于所述二维差值图像评价歌曲演唱；其中，所述二维差值图像的横轴为每个字起始点对应的歌词，纵轴为每个字起始点对应的所述时间偏差值。也即，歌曲演唱的评价即考虑节拍不准确字起始点数量，又考虑用户人声信号整体的合拍情况。

进一步的，上述内容公开的用户人声信号的合拍情况，可以作为歌曲演唱评价的一个指标，在具体的实施方式中，还可以利用用户人声信号的音高信息等对歌曲演唱进行综合评价。

可见，本申请实施例获取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息，获取用户演唱所述标准歌曲的用户人声信号，并对用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息，然后从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息，之后对所述字起始点时间信息与目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值，最后基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱。这样，比对用户人声信号中每个字起始点的时间信息和标准歌曲中与用户人声信号中每个字起始点的时间信息对应的节拍点的时间信息，得到用户人声信号中每个字起始点与标准歌曲中相应节拍点的时间偏差值，也即，得到了比较准确的评价歌曲演唱是否合拍的参考数据，相对于人工试听评价，能够提升歌曲演唱的评价的准确度，以及歌曲演唱的评价的效率。

参见图5所示，本申请实施例公开了一种具体的歌曲演唱的评价方法，包括：

步骤S21：获取标准歌曲的原唱音频。

步骤S22：确定所述原唱音频的左声道信号与右声道信号的差信号。

步骤S23：利用预设节拍检测算法基于所述差信号提取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息。

需要指出的是，若标准歌曲的原唱音频为立体声信号，基于原唱音频的左声道信号与右声道信号的差信号提取标准歌曲中每个节拍点的时间信息，能够降低标准歌曲的原唱音频中人声信号对节拍检测的影响。

具体的，可以利用原唱音频的左声道信号减去原唱音频的右声道信号，得到差信号，然后基于差信号确定待检测信号，利用预设节拍检测算法提取待检测信号的节拍信息，得到标准歌曲中每个节拍点的时间信息。

待检测信号的计算公式为：

dataSongBU＝(dataSongLeft-dataSongRight)/2.0；

其中，dataSongLeft为原唱音频的左声道信号，dataSongRight为原唱音频的右声道信号。

并且，在具体的实施方式中，可以利用beattracker(节拍跟踪)或者鼓点提取算法提取待检测信号的beat(节拍)点信息，得到节拍信息，该信息为一种时间轴上的标注信息，即在某时刻点歌曲有一个强拍或者弱拍出现。需要指出的是，该信息不仅为标准歌曲的原唱音频的节拍信息，也为标准歌曲的伴奏音频的节拍信息。

步骤S24：对用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息。

步骤S25：从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息。

步骤S26：对所述字起始点时间信息与目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值。

步骤S27：基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱。

其中，关于上述步骤S25至步骤S27的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请实施例利用预设预设节拍检测算法基于标准歌曲的原唱音频的左声道信号与右声道信号的差信号提取标准歌曲中每个节拍点的时间信息，然后确定标准歌曲中的与用户人声信号相关的节拍点的时间信息，准确的获取到歌曲演唱的评价参考数据。

进一步的，参见图6所示，本申请实施例公开了一种具体的歌曲演唱的评价方法，包括：

步骤S31：获取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息。

步骤S32：获取所述标准歌曲的标准音频；其中，所述标准音频为原唱音频或伴奏音频。

步骤S33：基于所述标准歌曲的节拍信息在所述标准音频相应的位置添加节拍提示音频，得到背景音乐。

在具体的实施方式中，所述节拍提示音频的生成过程包括：

基于所述标准音频的采样率确定单频信号；

对所述单频信号进行幅度调制，生成幅度随时间变化的节拍提示音频。

需要指出的是，幅度随时间变化的节拍提示音频的听觉体验是比较好的，这样的节拍提示音频能够提升用户体验。

例如，标准音频的采样率为fs，生成长度为150毫秒，频率为1500HZ的节拍提示音频，具体的节拍提示音频生成公式如下：

beatAdd(n)＝0.005*n*exp(-15*n/(0.15*fs))*cos(2*pi*1500*n/fs)；

其中，n表示数字信号的时间信息，为整数，取值范围为[0,fs*0.15]；函数exp()表示以自然常数为底的指数函数，pi为圆周率，通过上述公式即可得到幅度受到调制的节拍提示音频。其节拍提示音频的效果为先增强后衰减的。

在另外一些实施例中，用户也可以生成满足自身需求的节拍提示音频。

在具体的实施方式中，基于所述标准歌曲的节拍信息在所述标准音频相应的位置添加节拍提示音频，得到背景音乐的过程具体包括：

以所述节拍信息中每个节拍点的时间信息为起点，从所述标准音频中截取与所述节拍提示音频等长的信号，得到每个节拍点对应的信号片段；将所述节拍提示音频与每个节拍点的所述信号片段混合，得到每个节拍点对应的混合信号；将所述混合信号基于所述节拍信息放置在所述标准音频中每个节拍点对应的位置，得到所述背景音乐。

具体的，信号混合公式如下：

dataSongComb＝alpha*dataSongShort+(1-alpha)*beatadd；

其中，dataSongShort表示标准音频以任一节拍点的时间信息为起点截取的与节拍提示音频等长的信号，alpha为控制节拍提示音频的混入比例的参数，同时也用于尽可能保证该段混合信号的能量不会特别突出，影响听感。

这样，根据所有节拍点的时间信息，以上述混合方式，将节拍提示音频混入原唱音频的左右声道中。用户便可清楚的听到该原唱音频在哪个时间点有节拍提示音频出现，方便用户在学习歌曲的时候，准确把握歌曲节奏。另外，也可以将该节拍提示音频混入相应的伴奏音频中，方便用户在跟随伴奏唱歌时，也可以利用节拍提示音频引导用户准确地跟上歌曲的节奏。

当然，在一些实施例中，用户选择不进行节拍提示，可以将标准音频直接确定为背景音乐。

步骤S34：播放所述标准歌曲对应的背景音乐。

步骤S35：用户基于所述背景音乐进行演唱以获取所述用户人声信号。

在具体的实施方式中，可以控制客户端播放所述目标音频，并在用户基于所述背景音乐进行演唱时采集用户人声信号。

步骤S36：对用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息。

步骤S37：从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息。

步骤S38：对所述字起始点时间信息与目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值。

步骤S39：基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱。

其中，关于上述步骤S31、步骤S37至步骤S39的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请实施例在标准歌曲的原唱音频或伴奏音频中添加节拍提示音频，使用户在不需要掌握乐理知识的前提下，精准找到歌曲的节拍点，进行歌曲学习，从而提升用户体验。

下面，以某款音乐APP为例，对本申请的技术方案进行说明。

假设这款音乐APP的后台服务器基于这款音乐APP的歌曲数据库为用户提供跟唱功能。后台服务器先利用预设节拍检测算法提取歌曲数据库中每个标准歌曲中每个节拍点的时间信息，得到相应的节拍信息，并生成节拍提示音频，基于节拍信息在标准歌曲的原唱音频以及伴奏音频相应的位置添加节拍提示音频，得到添加节拍提示音频的背景音乐，利用添加节拍提示音频的背景音乐以及原唱音频、伴奏音频生成背景音乐库，用户在用户终端上安装了这款音乐APP，当用户通过这款音乐APP的客户端针对歌曲《遇见》点击唱这首歌，并选择以提示模式播放原唱时，后台服务器从背景音乐库中调取《遇见》对应的基于原唱音频确定的添加节拍提示音频的背景音乐，并通过用户终端播放该背景音乐，在用户基于背景音乐进行演唱时采集用户人声信号，然后传输至后台服务器，后台服务器对用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息，从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息的时间差最小的节拍点的时间信息，得到目标节拍点时间信息。最后对所述字起始点时间信息与目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值，将每个所述字起始点对应的所述时间偏差值与预设偏差门限进行比对；确定所述时间偏差值大于所述预设偏差门限的字起始点的数量，得到节拍不准确字起始点数量，计算节拍不准确字起始点数量和所述用户人声信号的字起始点总数，将该比值作为歌曲演唱的的不合拍率，并确定歌曲演唱得分，将歌曲演唱得分推送至这款音乐APP的客户端进行显示，并基于每个字起始点的所述时间偏差值绘制二维差值图像，发送至客户端，客户端对所述二维差值图像进行显示，以便用户基于所述二维差值图像评价歌曲演唱；其中，所述二维差值图像的横轴为每个字起始点对应的歌词，纵轴为每个字起始点对应的所述时间偏差值。

参见图7所示，本申请实施例公开了一种歌曲演唱的评价装置，包括：

标准歌曲节拍信息获取模块11，用于获取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息；

用户人声信号获取模块12，用于获取用户演唱所述标准歌曲的用户人声信号；

字起始点时间信息获取模块13，用于对用户人声信号进行逐字分割，并提取每个字起始点的时间信息，得到所述用户人声信号的字起始点时间信息；

目标节拍点时间信息获取模块14，用于从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息对应的节拍点的时间信息，得到目标节拍点时间信息；

节拍点时间偏差值确定模块15，用于对所述字起始点时间信息与目标节拍点时间信息进行比对，得到所述用户人声信号中每个所述字起始点的时间信息与所述目标节拍点时间信息中相应的节拍点的时间信息之间的时间偏差值；

歌曲演唱评价模块16，用于基于每个所述字起始点对应的所述时间偏差值评价歌曲演唱。

其中，目标节拍点时间信息获取模块14，具体用于从所述节拍信息中确定出与所述字起始点时间信息中每个所述字起始点的时间信息的时间差最小的节拍点的时间信息，得到目标节拍点时间信息。

在具体的实施方式中，标准歌曲节拍信息获取模块11，具体包括：

原唱音频获取单元，用于获取标准歌曲的原唱音频；

左右声道差信号确定单元，用于确定所述原唱音频的左声道信号与右声道信号的差信号；

节拍检测单元，用于利用预设节拍检测算法基于所述差信号提取标准歌曲中每个节拍点的时间信息，得到所述标准歌曲的节拍信息。

用户人声信号获取模块12，具体用于播放所述标准歌曲对应的背景音乐；用户基于所述背景音乐进行演唱以获取所述用户人声信号；

进一步的，所述装置还包括：背景音乐获取模块，具体包括：

标准音频获取单元，用于获取所述标准歌曲的标准音频；其中，所述标准音频为原唱音频或伴奏音频；

节拍提示音频添加单元，用于基于所述标准歌曲的节拍信息在所述标准音频相应的位置添加节拍提示音频，得到所述背景音乐。

相应的，所述装置还包括：

节拍提示音频生成模块，用于生成节拍提示音频。

在具体的实施方式中，节拍提示音频生成模块，具体包括：

单频信号确定单元，用于基于所述标准音频的采样率确定单频信号；

单频信号调制单元，用于对所述单频信号进行幅度调制，生成幅度随时间变化的节拍提示音频。

节拍提示音频添加单元，具体用于：

以所述节拍信息中每个节拍点的时间信息为起点，从所述标准音频中截取与所述节拍提示音频等长的信号，得到每个节拍点对应的信号片段；

将所述节拍提示音频与每个节拍点的所述信号片段混合，得到每个节拍点对应的混合信号；

将所述混合信号基于所述节拍信息放置在所述标准音频中每个节拍点对应的位置，得到所述背景音乐。

在一种具体的实施方式中，歌曲演唱的评价模块16，具体包括：

差值比对单元，用于将每个所述字起始点对应的所述时间偏差值与预设偏差门限进行比对；

节拍不准确字起始点数量确定单元，用于确定所述时间偏差值大于所述预设偏差门限的字起始点的数量，得到节拍不准确字起始点数量；

歌曲演唱的评价单元，用于基于节拍不准确字起始点数量和所述用户人声信号的字起始点总数评价歌曲演唱。

在另一种具体的实施方式中，歌曲演唱的评价模块16，基于每个字起始点的所述时间偏差值绘制二维差值图像，并对所述二维差值图像进行显示，以便基于所述二维差值图像评价歌曲演唱；其中，所述二维差值图像的横轴为每个字起始点对应的歌词，纵轴为每个字起始点对应的所述时间偏差值。

进一步的，本申请实施例还提供了一种电子设备。图8是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的歌曲演唱的评价方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及音频数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量音频数据223的运算与处理，其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的歌曲演唱的评价方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种音频数据。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的歌曲演唱的评价方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种歌曲演唱的评价方法、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种歌曲演唱的评价方法、设备及介质 [P] . 中国专利： CN113096689A . 2021-07-09
2. 一种基于马尔科夫链的实验室用电测量设备测试策略评价方法、电子设备及存储介质 [P] . 中国专利： CN114021632A . 2022-02-08
3. EVALUATION METHOD OF VISCERAL FAT AREA, VISCERAL FAT AREA EVALUATION APPARATUS, VISCERAL FAT AREA EVALUATION METHOD, VISCERAL FAT AREA EVALUATION PROGRAM, RECORDING MEDIUM, VISCERAL FAT AREA EVALUATION SYSTEM, AND TERMINAL DEVICE [P] . 日本专利： JP2016029398A . 2016-03-03

机译：内脏脂肪区域评价方法，内脏脂肪区域评价装置，内脏脂肪区域评价方法，内脏脂肪区域评价程序，记录介质，内脏脂肪区域评价系统以及终端设备
4. encoding apparatus, encoding method, decoding apparatus, decoding method, encoding apparatus for encoding a color image, encoding method for encoding a color image, decoding apparatus for decoding a color coded image, decoding method for decoding a color image, a recording medium that can be read on a computer, having configured a computer program to perform an encoding method, a recording medium that can be read on a computer, having configured a computer program for performing a coding method. a coding method for encoding a color image, a recording medium that can be read on a computer, having configured a computer program to perform a decoding method and a recording medium that can be read on a computer, having configured n a computer program to perform a decoding method for decoding a color image [P] . BRPI0517911A . 2008-10-21

机译：编码设备，编码方法，解码设备，解码方法，用于对彩色图像进行编码的编码设备，用于对彩色图像进行编码的编码方法，用于对彩色编码图像进行解码的解码设备，用于对彩色图像进行解码的解码方法，可以在计算机上读取的记录介质已经配置为执行编码方法的计算机程序，可以在计算机上读取的记录介质在配置了用于执行编码方法的计算机程序的计算机上可以读取。一种用于对彩色图像进行编码的编码方法，一种可在计算机上读取的记录介质，已配置了执行解码方法的计算机程序以及一种可在计算机上读取的记录介质，并已配置了执行以下操作的计算机程序：用于解码彩色图像的解码方法
5. A method for monitoring of a tool, a method for quality evaluation of a with the tool surface being machined, a workpiece as well as apparatus for carrying out the method [P] . 德国专利： DE102014104581A1 . 2015-10-01

机译：一种用于监视工具的方法，一种用于对被加工的工具表面进行加工的质量的评价方法，一种工件以及一种用于执行该方法的设备