首页> 中国专利> 一种用于歌曲高潮片段识别的方法

一种用于歌曲高潮片段识别的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种用于歌曲高潮片段识别的方法，涉及数字音乐技术领域。本发明分别通过高潮片段歌词识别步骤对歌曲歌词进行识别分析，得到歌词角度确定的高潮片段；通过高潮片段音频识别步骤对歌曲音频进行识别分析，得到音频角度确定的高潮片段；提取歌词角度确定的高潮片段与音频角度确定的高潮片段交集片段，并确定为歌曲高潮片段，该方法流程简洁高效，能对高差片段进行多角度识别，降低识别误差，提高识别效率。

著录项

公开/公告号CN114974296A

专利类型发明专利
公开/公告日2022-08-30

原文格式PDF
申请/专利权人北京卡拉卡尔科技股份有限公司;
展开▼

申请/专利号CN202210677994.5
发明设计人汪于迪;王霄麟;
展开▼

申请日2022-06-15
分类号G10L25/27(2013.01);G10L15/08(2006.01);G10L15/04(2013.01);G06F40/284(2020.01);G06F16/683(2019.01);
代理机构成都知都云专利代理事务所(普通合伙) 51306;
代理人陈钱
地址 100000 北京市朝阳区北辰西路69号峻峰华亭嘉园(住宅)C座1209室
入库时间 2023-06-19 16:33:23

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-16

实质审查的生效 IPC(主分类):G10L25/27 专利申请号:2022106779945 申请日:20220615

实质审查的生效

说明书

技术领域

本发明涉及数字音乐技术领域，尤其涉及一种用于歌曲高潮片段识别的方法。

背景技术

随着我国音乐版权保护法规的不断健全，在线音乐平台在逐步丰富音乐资源和拓展用户规模的同时，也在不断尝试从免费模式向付费模式的转型。在付费模式下，对于用户未购买的音乐，在线音乐平台通常提供试听片段，用户可以通过试听来判断音乐是否符合其喜好，进而决定是否付费购买。

通常情况下，为提供更好的试听效果，平台需要剪辑歌曲的高潮片段。另外，电信运营商在提供彩铃服务的时候，也需要提前获取歌曲的高潮片段。由此我们不难看出：歌曲的高潮片段具备特殊价值，在各领域都需要对歌曲高潮片段进行识别提取，并结合使用场景进行多用途运用。

现阶段，针对歌曲获取高潮片段业界最常用的方法是人工进行标注，也有通过识别重复歌词来进行判断的方法。但仍存在一些问题，如：

(1)人工标注：需要具备一定的专业性，且需要从头到尾试听整首歌曲，单位时间内的产量较低，花费成本较高，也存在误标的可能。

(2)将重复较多的歌词作为高潮部分：精确度不足，会有误标。因为除了高潮部分，有些过渡句、结束句也会重复。这种方法存在将过渡句、结束句误判为高潮部分的问题。

因此，有必要提供一种用于歌曲高潮片段识别的方法来解决上述技术问题。

发明内容

为解决上述之一技术问题，本发明提供的一种用于歌曲高潮片段识别的方法，通过高潮片段歌词识别步骤对歌曲歌词进行识别分析，得到歌词角度确定的高潮片段；通过高潮片段音频识别步骤对歌曲音频进行识别分析，得到音频角度确定的高潮片段；提取歌词角度确定的高潮片段与音频角度确定的高潮片段交集片段，并确定为歌曲高潮片段，完成对歌曲高潮片段的识别。

其中，所述高潮片段歌词识别步骤的子步骤包括：重复歌词识别步骤、相似歌词筛选步骤、连续歌词识别步骤和歌词停顿筛选步骤；所述高潮片段音频识别步骤的子步骤包括：音频滤波采样步骤、信号强度筛选步骤、连续音频识别步骤和相对强度筛选步骤。

作为更进一步的解决方案，所述高潮片段歌词识别步骤通过获取待识别歌曲的LRC文件，得到歌词角度识别分析数据；其中，所述LRC文件包括歌词文本和标签，所述歌词文本包括若干行歌词；所述标签包括标识标签和时间标签；所述标识标签以[标识名:值]格式对歌曲信息进行标识；所述时间标签设置在各行歌词的首部/句中处，并以[时间点]格式对歌词起始播放时间点进行标注。

作为更进一步的解决方案，所述高潮片段音频识别步骤通过对歌曲音频进行滤波与采样，得到音频信号数据T(1)～T(n)，其中，T(n)表示采样时刻n时，音频信号的强度值。

作为更进一步的解决方案，所述重复歌词识别步骤通过如下步骤执行：

A1获取歌词文本；

A2遍历歌词文本，并对每行歌词标记序号；

A3遍历歌词文本，并统计每行歌词的字数；

A4逐行比较歌词，统计字数相同歌词，记录对应标记序号；

A5计算字数相同歌词之间，相同的字符数占整句字符数的比例，得到相似程度；

A6将相似程度与相似阈值进行比较，记录超过相似阈值的歌词，并以时间顺序加入初步筛选集合A。

作为更进一步的解决方案，所述相似歌词筛选步骤通过如下步骤执行：

B1获取初步筛选集合A；

B2筛选初步筛选集合A中相似但不完全相同的歌词，组成相似歌词组；筛选初步筛选集合A中完全相同的歌词，组成相同歌词组；

B3通过词典数据库对相似歌词组中不相同字符词性进行标注；

B4将记录不相同字符词性和所处句中位置，得到歌词结构；

B5比较相似歌词组之间的歌词结构，若相同，即视为相似歌词，并加入相似筛选集合B中，若不相同，则视为无关联歌词，并进行舍弃；

B6将相似歌词和相同歌词组加入相似筛选集合B中，完成相似歌词筛选步骤。

作为更进一步的解决方案，所述连续歌词识别步骤通过如下步骤执行：

C1获取相似筛选集合B；

C2读取相似筛选集合B中歌词标记序号；

C3判断是否出现连续歌词，并统计歌词连续数，其中，当歌词标记序号为连续数字时，对应歌词为连续歌词；

C4判断各连续歌词对应的歌词连续数是否大于连续阈值，若大于，将连续歌词加入连续歌词筛选集合C中；否则进行舍弃。

作为更进一步的解决方案，所述歌词停顿筛选步骤通过如下步骤执行：

D1获取连续歌词筛选集合C和歌词对应的时间标签；

D2设置歌词停顿阈值；

D3对连续歌词进行读取，并获取对应的前句歌词，其中，前句歌词为连续歌词在LRC文件中的前一句歌词；

D4获取前句歌词与连续歌词对应的时间标签，若歌词停顿间隙大于歌词停顿阈值，则将前句歌词进行保留；

D5将连续歌词和保留的前句歌词放入歌词角度筛选集合D中，完成歌词角度的高潮片段筛选。

作为更进一步的解决方案，所述信号强度筛选步骤通过如下步骤执行：

E1获取音频信号数据T(1)～T(n)；

E2设置音频信号强度阈值；

E3筛选音频信号数据T(1)～T(n)中音频信号的强度值超过音频信号强度阈值的数据点，并进行保留；

E4将保留的数据点记录到集合中，得到信号强度筛选集合F。

作为更进一步的解决方案，所述连续音频识别步骤通过如下步骤执行：

F1获取信号强度筛选集合F；

F2提取信号强度筛选集合F中的连续点，其中，所述连续点由至少两个连续数据点组成，当连续数据点为两个时，所述连续数据点T(i)和连续数据点T(j)：j＝i+t，i、j代表采样时刻，t是最小采样周期；当连续数据点为n个时，连续数据点T(i)...连续数据点T(j)：j＝i+n*t，i、j代表首、末采样时刻，t是最小采样周期；

F3遍历信号强度筛选集合F中所有数据点，并将各连续点放入连续音频筛选集合G中。

作为更进一步的解决方案，所述相对强度筛选步骤通过如下步骤执行：

G1获取连续音频筛选集合G；

G2将各连续点的首个连续数据点作为连续点起点，将各连续点的末尾连续数据点作为连续点终点；

G3读取音频信号数据T(1)～T(n)，并获取连续点起点相邻的前一个数据点，并作为起点强度对照点；

G4读取音频信号数据T(1)～T(n)，并获取连续点终点相邻的后一个数据点，并作为终点强度对照点；

G5计算连续点起点与起点强度对照点的强度值比值，得到起点相对强度u；

G6计算连续点终点与终点强度对照点的强度值比值，得到终点相对强度d；

G7设置起点相对强度阈值和终点相对强度阈值；

G8取起点相对强度u与终点相对强度d的绝对值，并分别与起点相对强度阈值和终点相对强度阈值进行对比；若起点相对强度u与终点相对强度d均大于对应的起点相对强度阈值和终点相对强度阈，则对连续点进行保留；

G9将保留的连续点加入音频角度筛选集合I中，完成相对强度筛选。

与相关技术相比较，本发明提供的一种用于歌曲高潮片段识别的方法具有如下有益效果：

本发明分别通过高潮片段歌词识别步骤对歌曲歌词进行识别分析，得到歌词角度确定的高潮片段；通过高潮片段音频识别步骤对歌曲音频进行识别分析，得到音频角度确定的高潮片段；提取歌词角度确定的高潮片段与音频角度确定的高潮片段交集片段，并确定为歌曲高潮片段，该方法流程简洁高效，能对高差片段进行多角度识别，降低识别误差，提高识别效率。

附图说明

图1为本发明实施例提供的一种用于歌曲高潮片段识别的方法的较佳流程示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

如图1所示，本实施例提供的一种用于歌曲高潮片段识别的方法，通过高潮片段歌词识别步骤对歌曲歌词进行识别分析，得到歌词角度确定的高潮片段；通过高潮片段音频识别步骤对歌曲音频进行识别分析，得到音频角度确定的高潮片段；提取歌词角度确定的高潮片段与音频角度确定的高潮片段交集片段，并确定为歌曲高潮片段，完成对歌曲高潮片段的识别。

需要说明的是：现有针对歌曲高潮部分的识别通常采用单一角度识别的方法，但是单一在音频角度的识别往往会导致识别难度过大，单一在歌词角度的识别存在其精确度不足，会有误标的情况发生。因为除了高潮部分，有些过渡句、结束句也会重复。这种方法存在将过渡句、结束句误判为高潮部分的问题。为此，本实施例提出一种结合了音频角度和歌词角度的歌曲高潮片段识别的方法来解决上述问题。

需要说明的是：LRC文件是把歌词按照出现的时间排序，然后在播放歌曲时同步依次将歌词显示出来的歌词文件。LRC文件由标签和歌词两部组成，标签通常有两类：

一是标识标签，其格式为“[标识名:值]”主要包含以下预定义的标签：[ar:歌手名]、[ti:歌曲名]、[al:专辑名]等。

二是时间标签，形式为“[mm:ss]”或“[mm:ss.ff]”(分钟数:秒数.百分之一秒数)，时间标签需位于某行歌词中的句首部分，一行歌词可以包含多个时间标签(比如歌词中的迭句部分)。当歌曲播放到达某一时间点时，播放器就会寻找对应的时间标签并显示标签后面的歌词文本，这样就完成了“歌词同步”的功能。

本发明通过LRC文件获取原始的歌词，并利用时间标签来对歌词进行歌词角度的识别，标识标签能读取当前歌曲所述的风格，进而在进行歌词角度识别时，匹配符合歌曲风格的对应阈值。

需要是说明的是：歌曲的声音信号在时间上是连续的，但是计算机只能存储离散的信号，所以需要对歌曲音频进行滤波、采样，以得到离散的信号数据，采样数据包括采样时间和信号强度。采样时所采用的频率越密集越精确，具体的采样频率可以根据实际应用场景和需求设置，例如对于节奏较为舒缓的歌曲，采样频率可以稍低，对于节奏变化较快，或歌长时间较短的歌曲，则需较高的采样频率以确保数据的准确性。在对歌曲的音频文件进行采样之后，一首歌曲便成了一个离散的时间序列T(1)～T(n)。

作为更进一步的解决方案，所述重复歌词识别步骤通过如下步骤执行：

A1获取歌词文本；

A2遍历歌词文本，并对每行歌词标记序号；

A3遍历歌词文本，并统计每行歌词的字数；

A4逐行比较歌词，统计字数相同歌词，记录对应标记序号；

A5计算字数相同歌词之间，相同的字符数占整句字符数的比例，得到相似程度；

A6将相似程度与相似阈值进行比较，记录超过相似阈值的歌词，并以时间顺序加入初步筛选集合A。

需要说明的是：该步骤遍历歌词，并为每句歌词标记序号。取出字数一样的歌词，逐字比较，比较各句中相同位置的字符是否相同。比较完整句后，计算相同的字符数占整句字符数的比例，将该比例作为相似程度，将相似程度超过阈值的歌词按时间顺序放入初步筛选集合A，记录相似歌词序号、匹配关系及相似程度。例如：

例如，LRC文件中，典型的标签及歌词如下：

[00:00.00]XXXXXX

[00:02.00]XXXXXXXX

[00:02.59]XXXXXXXXX

[00:03.19]XXXXXXXXXXX

[00:13.64]XXX

[00:16.83]XXXX

[00:20.68]XXXXXXXX

[00:26.73]XXXXXXXXX

[00:30.52]XXXXXXXXXXX

.......(省略)

其中，X代表任意字符。

假如经过遍历比较，第2句XXXXXXXX和第7句XXXXXXXX相似度超过阈值a，第3句XXXXXXXXX和第8句XXXXXXXXX相似度超过阈值a，则原始LRC歌词经过重复歌词识别步骤的比较提取后，形成的集合A如下：

A＝{2)[00:02.00]XXXXXXXX，

3)[00:02.59]XXXXXXXXX，

7)[00:20.68]XXXXXXXX，

8)[00:26.73]XXXXXXXXX....}

作为更进一步的解决方案，所述相似歌词筛选步骤通过如下步骤执行：

B1获取初步筛选集合A；

B2筛选初步筛选集合A中相似但不完全相同的歌词，组成相似歌词组；筛选初步筛选集合A中完全相同的歌词，组成相同歌词组；

B3通过词典数据库对相似歌词组中不相同字符词性进行标注；

B4将记录不相同字符词性和所处句中位置，得到歌词结构；

B5比较相似歌词组之间的歌词结构，若相同，即视为相似歌词，并加入相似筛选集合B中，若不相同，则视为无关联歌词，并进行舍弃；

B6将相似歌词和相同歌词组加入相似筛选集合B中，完成相似歌词筛选步骤。

需要说明的是：根据重复歌词识别步骤中记录的相似歌词的序号、匹配关系、相似程度，根据序号和匹配关系确定相似歌词的配对组合，根据相似程度提取筛选初步筛选集合A中相似但不完全相同的歌词。提取相似歌词的不同部分，结合词典数据库，比较提取的不同部分的歌词结构、词性。若不同部分歌词结构、词性均一致，则提取这类歌词放入相似筛选集合B。另外根据重复歌词识别步骤的比较结果，将完全相同的也放入相似筛选集合B。

例如，假如两个相似歌词为：

2)[00:02.00]XXXXXABC，

7)[00:20.68]XXXXXDEF，

则提取的不同部分为ABC和DEF，然后比较ABC和DEF的词性和结构，例如若都是名词动词名词的形式，则提取歌词2和7放入相似筛选集合B。

作为更进一步的解决方案，所述连续歌词识别步骤通过如下步骤执行：

C1获取相似筛选集合B；

C2读取相似筛选集合B中歌词标记序号；

C3判断是否出现连续歌词，并统计歌词连续数，其中，当歌词标记序号为连续数字时，对应歌词为连续歌词；

C4判断各连续歌词对应的歌词连续数是否大于连续阈值，若大于，将连续歌词加入连续歌词筛选集合C中；否则进行舍弃。

需要说明的是：在歌曲中，高潮部分和结束语、过渡词等部分都可能重复出现，但高潮部分的歌词有一个特征是歌曲其他部分歌词不具备的，这个特征是连续歌词数较多。因此，在相似筛选集合B中，选择歌词连续数或连续歌词在整首歌的句数中占比大于连续阈值的歌词放入连续歌词筛选集合C。

例如，若相似筛选集合B如下，

B＝{

2)[00:02.00]XXXXXXXX，

3)[00:02.59]XXXXXXXXX，

4)[00:03.59]XX，

6)[00:05.59]XXX，

9)[00:15.59]XXX，

12)[00:20.68]XXXXXXXX，

13)[00:26.73]XXXXXXXXX，

14)[00:33.59]XX

}

其中，第2、3、4句分别与12、13、14句相似，第6句与第9句相似。则第2、3、4句和第12、13、14句这组相似歌词的歌词连续数为3，满足本步骤的筛选要求。第6句与第9句虽然相似，但歌词连续数为1，不满足要求。因此连续歌词筛选集合C为：

C＝{

2)[00:02.00]XXXXXXXX，

3)[00:02.59]XXXXXXXXX，

4)[00:03.59]XX，

12)[00:20.68]XXXXXXXX，

13)[00:26.73]XXXXXXXXX，

14)[00:33.59]XX

}

作为更进一步的解决方案，所述歌词停顿筛选步骤通过如下步骤执行：

D1获取连续歌词筛选集合C和歌词对应的时间标签；

D2设置歌词停顿阈值；

D3对连续歌词进行读取，并获取对应的前句歌词，其中，前句歌词为连续歌词在LRC文件中的前一句歌词；

D4获取前句歌词与连续歌词对应的时间标签，若歌词停顿间隙大于歌词停顿阈值，则将前句歌词进行保留；

D5将连续歌词和保留的前句歌词放入歌词角度筛选集合D中，完成歌词角度的高潮片段筛选。

需要说明的是：通常歌曲高潮部分不会突兀地出现，在进入高潮部分前，会有一定的铺垫、停顿，即低潮和高潮间存在时间间隙。这个时间间隙可以通过LRC歌词对应的时间标签体现出来。在连续歌词筛选集合C中，选择与在原LRC歌词中的前句间隙大于阈值的歌词，放入歌词角度筛选集合D。

作为更进一步的解决方案，所述信号强度筛选步骤通过如下步骤执行：

E1获取音频信号数据T(1)～T(n)；

E2设置音频信号强度阈值；

E3筛选音频信号数据T(1)～T(n)中音频信号的强度值超过音频信号强度阈值的数据点，并进行保留；

E4将保留的数据点记录到集合中，得到信号强度筛选集合F。

作为更进一步的解决方案，所述连续音频识别步骤通过如下步骤执行：

F1获取信号强度筛选集合F；

F3遍历信号强度筛选集合F中所有数据点，并将各连续点放入连续音频筛选集合G中。

需要说明的是：音乐的高潮部分通常在节奏、音量等方面是整首歌的高峰，且相对其余非高潮部分会有明显的变化，因此可以从音频角度确认歌曲高潮。

作为更进一步的解决方案，所述相对强度筛选步骤通过如下步骤执行：

G1获取连续音频筛选集合G；

G2将各连续点的首个连续数据点作为连续点起点，将各连续点的末尾连续数据点作为连续点终点；

G3读取音频信号数据T(1)～T(n)，并获取连续点起点相邻的前一个数据点，并作为起点强度对照点；

G4读取音频信号数据T(1)～T(n)，并获取连续点终点相邻的后一个数据点，并作为终点强度对照点；

G5计算连续点起点与起点强度对照点的强度值比值，得到起点相对强度u；

G6计算连续点终点与终点强度对照点的强度值比值，得到终点相对强度d；

G7设置起点相对强度阈值和终点相对强度阈值；

G9将保留的连续点加入音频角度筛选集合I中，完成相对强度筛选。

需要说明的是：在得到音频角度筛选集合I和歌词角度筛选集合D后，将两者的交集作为歌曲的高潮片段进行输出，完成对歌词高潮片段的识别。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 歌曲高潮片段识别方法及装置 [P] . 中国专利： CN111081272A . 2020-04-28
2. 一种移动终端及其识别歌曲高潮部分的方法和装置 [P] . 中国专利： CN104282322B . 2019-07-19
3. RETRIEVAL METHOD OF RECORDED SONG PIECES, DATABASE STRUCTURE OF THE RECORDED SONG PIECES [P] . 日本专利： JP2007072316A . 2007-03-22

机译：录制的歌曲片段的检索方法，录制的歌曲片段的数据库结构
4. Systems and Methods of Constructing a Library of Audio Segments of a Song and an Interface for Generating a User-Defined Rendition of the Song [P] . 美国专利： US2011112672A1 . 2011-05-12

机译：构造歌曲的音频片段库和用于生成用户定义的歌曲再现的接口的系统和方法
5. Program elements identification method, e.g. to ascertain song titles, involves transmitting audio segments of elements of interest to remote facility which returns details via e.g. SMS [P] . 德国专利： DE10053739A1 . 2002-05-02

机译：程序元素识别方法，例如为了确定歌曲标题，涉及将感兴趣的元素的音频片段传输到远程设施，该远程设施通过例如电话返回细节。短信