首页> 中国专利> 用于在音频帧序列中检测重复模式的方法及设备

用于在音频帧序列中检测重复模式的方法及设备

摘要

描述了用于在音频帧序列中检测重复模式的方法及设备。计算该序列的具有第一分辨率的第一相似度矩阵的相似度值。根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对第二相似度矩阵的一个或更多个偏移中的每一个,计算第二相似度矩阵中与该偏移相对应的相似度值,其中第二相似度矩阵具有高于第一分辨率的第二分辨率。然后,利用自适应阈值对计算出的相似度值进行分类,以获得二值化数据。最后,从二值化数据中检测重复模式。由于在重复模式检测中存储的数据更少,因此可以减小对存储器的要求。

著录项

  • 公开/公告号CN102956238A

    专利类型发明专利

  • 公开/公告日2013-03-06

    原文格式PDF

  • 申请/专利权人 杜比实验室特许公司;

    申请/专利号CN201110243088.6

  • 发明设计人 芦烈;程斌;

    申请日2011-08-19

  • 分类号G10L25/60;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人杜诚

  • 地址 美国加利福尼亚州

  • 入库时间 2024-02-19 17:28:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-09

    未缴年费专利权终止 IPC(主分类):G10L25/60 授权公告日:20160210 终止日期:20180819 申请日:20110819

    专利权的终止

  • 2016-02-10

    授权

    授权

  • 2013-06-26

    实质审查的生效 IPC(主分类):G10L25/60 申请日:20110819

    实质审查的生效

  • 2013-03-06

    公开

    公开

说明书

技术领域

本发明一般涉及音频信号处理。更具体地,本发明的实施例涉及用于在音频帧序列中检测重复模式的方法及设备。

背景技术

音频信号,尤其是音乐信号,通常显示出重复的特性:在音频信号中,一个音频部分在后面将会重复。对音频信号中这些重复部分的检测已引起很多关注,因为这种检测是一个基础性步骤,并且可以用于各种应用,诸如音乐检测、音乐副歌检测、音乐缩略或音乐概括以及音乐结构分析。

关于术语“重复部分”,在不同文献中可以使用具有类似含义的不同术语,诸如“反复出现”、“重复”、“重复模式”或“反复模式”。在本公开中,可以互换地使用这些术语,而不会引起任何混淆。

为了检测重复部分,各种方案能够涉及计算相似度(或距离)矩阵,并在矩阵中找到重复模式。相似度矩阵包括帧t与t+l之间的相似度值s(t,l),其中l代表相似度值s(t,l)的偏移。一般的思路是,估计固定阈值并用它将矩阵二值化。即,对于相似度矩阵中的每个像素,如果其相似度值大于固定阈值,则将该像素二值化为1,表明该像素表示重复;否则,将该像素设置为0。二值化之后,通过在每个偏移中检测包含连续“1”的线,可容易地检测重复模式(参见M.Goto.“A chorus-section detectingmethod for musical audio signals,”Proc.Acoustics,Speech,and SignalProcessing,2003,其通过引用并入于此以用于全部目的)。

本章节中描述的方案是能够采用的方案,但不一定是先前已经构思或采用的方案。因此,除非另外指出,不应仅因为被包含在本章节中就假定本章节描述的任何方案适合作为现有技术。类似地,根据本章节而关于一个或更多个方案发现的问题不应被假定为任何现有技术中已经认识到的问题,除非另外指出。

发明内容

根据本发明的一个实施例,提供了一种在音频帧序列中检测重复模式的方法。根据该方法,计算该序列的具有第一分辨率的第一相似度矩阵的相似度值。根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对第二相似度矩阵的一个或更多个偏移中的每一个,计算第二相似度矩阵中与该偏移相对应的相似度值,其中第二相似度矩阵具有高于第一分辨率的第二分辨率。利用自适应阈值对计算出的相似度值进行分类,以获得二值化数据。从二值化数据中检测重复模式。

根据本发明的另一实施例,提供了一种用于在音频帧序列中检测重复模式的设备。该设备包括计算器、估计器以及检测器。计算器计算该序列的具有第一分辨率的第一相似度矩阵的相似度值。估计器根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。检测器针对具有高于第一分辨率的第二分辨率的第二相似度矩阵的一个或更多个偏移中的每一个,计算第二相似度矩阵中与该偏移相对应的相似度值,利用自适应阈值对计算出的相似度值进行分类以获得二值化数据,并从二值化数据中检测重复模式。

根据本发明的另一实施例,提供了一种记录有计算机程序指令的计算机可读介质。这些指令在由处理器执行时使得该处理器能够进行一种在音频帧序列中检测重复模式的方法。根据该方法,计算该序列的具有第一分辨率的第一相似度矩阵的相似度值。根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对第二相似度矩阵的一个或更多个偏移中的每一个,计算第二相似度矩阵中与该偏移相对应的相似度值,其中第二相似度矩阵具有高于第一分辨率的第二分辨率。利用自适应阈值对计算出的相似度值进行分类,以获得二值化数据。从二值化数据中检测重复模式。

根据本发明的另一实施例,提供了一种在音频帧序列中检测重复模式的方法。计算该序列的第一相似度矩阵的相似度值。针对第一相似度矩阵的各偏移中的每一个,基于第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性。将重要性得分与和该偏移相关联的阈值进行比较。如果重要性得分大于所述阈值,则将该偏移确定为重要偏移。在缓冲器中存储第一相似度矩阵中与重要偏移相对应的相似度值。根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对与第一相似度矩阵具有相同分辨率的第二相似度矩阵,从缓冲器读取第一相似度矩阵中对应于重要偏移的相似度值,以作为第二相似度矩阵中要计算的相似度值。利用自适应阈值对读取出的相似度值进行分类,以获得二值化数据。从二值化数据中检测重复模式。

根据本发明的另一实施例,提供了一种在音频帧序列中检测重复模式的设备。设备包括计算器、估计器以及检测器。计算器计算该序列的第一相似度矩阵的相似度值。针对第一相似度矩阵的各偏移中的每一个,计算器基于第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性。计算器也将重要性得分与和该偏移相关联的阈值进行比较。如果重要性得分大于阈值,则计算器将该偏移确定为重要偏移。计算器还在缓冲器中存储第一相似度矩阵中与重要偏移相对应的相似度值。估计器根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。针对与第一相似度矩阵具有相同分辨率的第二相似度矩阵,检测器从缓冲器读取第一相似度矩阵中对应于重要偏移的相似度值,以作为第二相似度矩阵中要计算的相似度值。检测器利用自适应阈值对读取出的相似度值进行分类,以获得二值化数据,并且从二值化数据中检测所述重复模式。

下面参考附图详细描述本发明的进一步特性和优点,以及本发明各个实施例的结构和操作。应当注意,本发明不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。

附图说明

在附图的各图中通过示例来图解本发明,但这些示例不对本发明产生限制,附图中类似的附图标记表示类似的元件,其中:

图1(a)图示相似度矩阵的示例,且图1(b)图示从图1(a)所示的矩阵转换得到的时滞相似度矩阵的示例;

图2是图示根据本发明实施例的用于在音频帧序列中检测重复模式的示例设备的框图;

图3是图示根据本发明实施例的在音频帧序列中检测重复模式的示例方法的流程图;以及

图4是图示用于实施本发明的各个方面的示例性系统的框图。

具体实施方式

下面参考附图描述本发明实施例。应注意,为清楚起见,在附图和描述中省略了关于本领域技术人员已知但是与本发明无关的组件和过程的陈述和描述。

本领域的技术人员可以理解,本发明的各方面可以被实施为系统(例如在线数字媒体商店、云计算服务、流媒体服务、电信网络等)、装置(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器)、方法或计算机程序产品。因此,本发明的各方面可以采取以下形式:完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施例,本文可以一般地称之为“电路”、“模块”或“系统”。此外,本发明的各方面可以采取体现为一个或更多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上体现有计算机可读程序代码。

可以使用一个或更多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或更多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言,诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中,使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理设备(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意媒体播放器)或其它装置上,导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

通过将音频信号划分为多个帧并测量每两个帧之间的相似度,可以计算代表该音频信号的自相似度的相似度矩阵。例如,图1(a)图示了相似度矩阵的示例,其中每个像素(ti,tj)的像素值代表帧ti和tj之间的相似度。两个帧越相似,则在该图中像素就越白。可以清楚地看到,平行于矩阵对角线的每个不同的线均代表重复模式。由于相似度矩阵和距离矩阵完全等同,因此在以下部分中,将只把相似度矩阵作为示例。

为了在后续步骤中容易处理,相似度矩阵通常是以时滞相似度矩阵的形式来表示的,其中水平轴(时间轴)代表时间戳(或帧)t而垂直轴(偏移轴)为时间偏移(或时滞)l。即,时滞矩阵中的每个像素(t,l)的像素值是时间(或帧)t与t+l之间的相似度值。重复模式成为矩阵中的水平线。图1(b)图示从图1(a)所示的矩阵转换得到的时滞相似度矩阵的示例。

如图1所示,相似度矩阵通常为N×N矩阵,其中N是音频信号中的帧的数目。例如,针对以100毫秒的非交叠窗口划分成帧的5分钟的音频信号,该音频信号中存在3000帧,而相似度矩阵的大小可为3000×3000/2=4.5M(考虑到相似度矩阵是对称的)。在相似度矩阵中每个值以2-4字节来存储的情况下,相似度矩阵的整个大小为9-18MB(兆字节)。

在诸如嵌入式系统的存储器容量有限的应用中,无法负担这种存储器成本。例如,嵌入式系统中的应用的典型存储器成本为大约100KB或更少。为了使得算法在嵌入式系统中可行,需要在不损害重复模式检测的准确度的情况下大大减小存储器成本的方案。

通过粗分辨率相似度矩阵估计自适应阈值

通常,计算并存储整个相似度矩阵,以通过利用该相似度矩阵中的相似度值的全局分布来估计自适应阈值。具体地,根据相似度矩阵中的相似度值来计算诸如均值和概率以及百分比的统计信息,并根据这些统计信息估计自适应阈值。

如果相似度矩阵在偏移轴或时间轴中的一个或更多个中具有低于逐帧分辨率的分辨率,则该相似度矩阵被称为具有粗分辨率的相似度矩阵(也称为粗分辨率相似度矩阵)。在偏移轴和时间轴二者均具有逐帧分辨率的相似度矩阵称为具有高分辨率的相似度矩阵(也称为高分辨率相似度矩阵)。尽管与高分辨率相似度矩阵相比,粗分辨率相似度矩阵中包括更少的样本,然而粗分辨率相似度矩阵中的相似度值的动态范围和统计信息与高分辨率相似度矩阵是类似的。因此,可根据粗分辨率相似度矩阵估计自适应阈值。这样获得的自适应阈值可接近于根据高分辨率相似度矩阵获得的自适应阈值。

为了保证高准确度,并不直接在这种粗分辨率相似度矩阵上检测反复模式,而是在反复模式检测中使用另一相似度矩阵,其分辨率高于粗分辨率相似度矩阵的分辨率。高于粗分辨率的较高分辨率是指,在偏移轴和时间轴二者中均不低于粗分辨率并在偏移轴和时间轴中的至少一个上高于粗分辨率的分辨率。在具有较高分辨率的相似度矩阵中,可获得与相似度矩阵的每一偏移相对应的相似度值(即,具有较高分辨率的时滞相似度矩阵中的一行)。针对每个偏移,所估计的自适应阈值被用于将所获得的相似度值二值化,以检测该偏移中的重复模式。以此方式,只需要存储粗分辨率相似度矩阵并且只需要存储相似度值的一行,与存储高分辨率相似度矩阵并从高分辨率相似度矩阵中检测重复模式相比,这减小了存储器成本。

图2是图示根据本发明实施例的用于在音频帧序列中检测重复模式的示例设备200的框图。

如图2所示,设备200包括计算器201、估计器202和检测器203。

计算器201计算该序列的具有粗分辨率的相似度矩阵M1的相似度值s(t,l)。

粗分辨率

该序列包括若干音频帧。音频帧包括音频样本。相似度矩阵的偏移是以音频帧为单位来度量的。相似度矩阵M2在偏移轴和/或时间轴上具有比相似度矩阵M1高的分辨率。

在第一示例中,与相似度矩阵M2相比,相似度矩阵M1可以在时间轴中具有比相似度矩阵M2低的分辨率。在这种情况下,相似度矩阵M1可以具有逐段分辨率,而一个分段包括至少两个音频帧。在下文中,将始于音频帧t的分段称为分段t。每个分段都是音频帧的序列,因此,可以采用各种用于计算音频帧序列之间的相似度值的方法来计算分段之间的相似度值。

作为一个计算分段t和t+l之间的相似度值s(t,l),l>0的示例,可计算分段t的音频帧t+i和分段t+l的音频帧t+l+i之间的相似度值sh(t+i,l),0≤i≤W-1,其中W(例如W=10)是以音频帧为单位的分段的长度。可以将相似度值sh(t+i,l)进行平均以作为相似度值s(t,l)。例如,可以将相似度值s(t,l)计算为:

>s(t,l)=Σi=0W-1w(i)sh(t+i,l)---(1)>

其中,w(i)为对应的加权因子,它可以是均匀分布函数、高斯函数、三角函数或其它类型的函数。

作为一个计算分段t和t+l之间的相似度值s(t,l),l>0的示例,可从分段t的帧t,...,t+W-1获得数目为N的子样本ti并从分段t+l的帧t+l,...,t+l+W-1获得数目为N的子样本ti+l,即,ti=g(i),其中g()是下采样函数。一个示例是,g(i)=t+i×W/N,0≤i≤N-1。可替选地,g()也可以是非线性下采样函数。在这种情况下,可计算分段t的音频帧ti和分段t+l的音频帧ti+l之间的相似度值sh(ti,l),0≤i≤N-1。可以将相似度值sh(ti,l)进行平均以作为相似度值s(t,l)。例如,可以将相似度值s(t,l)计算为:

>s(t,l)=Σi=0N-1w(i)sh(ti,l)---(2)>

其中,w(i)为对应的加权因子,它可以是均匀分布函数、高斯函数、三角函数或其它类型的函数。

在第二示例中,与相似度矩阵M2相比,相似度矩阵M1可以在偏移轴上具有比相似度矩阵M2低的分辨率。在这种情况下,在以帧为单位的情况下,相似度矩阵M1的偏移可以是不连续的。换言之,可以通过从集合O={1,...,L}中移除一个或更多个偏移来确定相似度矩阵M1的偏移,其中L是以帧为单位的序列的长度。

例如,相似度矩阵M1的偏移li可以是取自集合O的子样本,即,li=g(i),其中g()可为下采样函数,例如g(i)=n×i,以每n帧线性拾取一帧。可替选地,g()也可以是非线性下采样函数。在这种情况下,可以利用与第一示例一起描述的方法来计算相似度值s(t,li)。可替选地,针对两个分段t和t+li之间的相似度值s(t,li),可计算两个分段t和t+tj之间的相似度值s(t,tj),其中tj代表从li-m至li+n(m,n≥0且m+n≠0)的范围中的每个(高分辨率)偏移,并将相似度值s(t,tj),li-m≤tj≤li+n进行平均以作为相似度值sa(t,li)。例如,可以将相似度值sa(t,li)计算为:

>sa(t,li)=Σi=0m+n-1w(i)s(t,tj)---(3)>

其中,w(i)为对应的加权因子,它可以是均匀分布函数、高斯函数、三角函数或其它类型的函数。

在第三示例中,与相似度矩阵M2相比,相似度矩阵M1可以在偏移轴和时间轴二者上均具有比相似度矩阵M2低的分辨率。在这种情况下,可以利用与第一示例和第二示例一起描述的方法来计算相似度值s(t,l)。

估计自适应阈值

估计器202根据相似度值来估计自适应阈值,用于将相似度值分类为重复或非重复。用于根据高分辨率相似度矩阵估计自适应阈值的各种方法也可以用于根据粗分辨率相似度矩阵估计自适应阈值。

此外,由于自适应阈值通常是根据相似度矩阵中的相似度值的诸如均值和(重复或非重复的)概率以及百分比的统计信息来估计的,因此,可存储统计信息而非相似度矩阵,以便减小存储成本。

在一个示例中,计算器201可以被配置为,当计算粗分辨率相似度矩阵M1的各相似度值中的每一个时,更新相似度值的统计信息,以用于估计自适应阈值。相应地,估计器202可以被配置为基于统计信息来估计自适应阈值。

作为示例,统计信息可以包括直方图,以用于累计落入各相似度值区间的每一个中的相似度值的数目。在这种情况下,直方图包括处于最小值与最大值之间的范围中的若干相似度值区间。针对每个相似度值区间,对位于每个相似度值区间内的相似度值的数目进行累计,和/或在遍历相似度矩阵中的所有相似度值之后最终对该数目进行归一化。当计算相似度值时,可以更新该直方图。

由于用于估计自适应阈值的统计信息可以从直方图获得,因此,根据统计信息估计自适应阈值的各种方法也可以应用于直方图的情况。例如,由于直方图本质上是概率分布,因此可找到百分比位置,并且为了计算统计信息,可以通过以下公式来近似得到均值:

>μ=1NΣi=1Nx(i)Σi=blbhh(i)p(i)/Σi=blbhp(i)---(4)>

其中,h(i)是第i区间的代表值且p(i)是对应的概率,bl和bh是要考查的各区间的下界和上界。然后,自适应阈值可以通过使以下的类间方差最大化来获得:

其中,一个类代表要被二值化为1的像素而另一个类包含要被二值化为0的像素,w1和w2以及μ1和μ2是每个类的概率以及均值。

检测重复模式

利用所估计的自适应阈值,可以逐个偏移地从相似度矩阵M2中检测重复模式。在这种情况下,针对相似度矩阵M2的一个或更多个偏移中的每个偏移l,检测器203计算相似度矩阵M2中与偏移l相对应的相似度值s(t,l),利用自适应阈值对计算出的相似度值s(t,l)进行分类以获得二值化数据,并从二值化数据中检测重复模式。因此,不必存储相似度矩阵M2的所有相似度值。

相似度矩阵M2也可以是粗分辨率相似度矩阵。在这种情况下,可以利用与用于计算相似度矩阵M1的相似度值的方法相同的方法,计算相似度矩阵M2的相似度值。

在粗分辨率相似度矩阵M1在时间轴上具有与相似度矩阵M2相同的分辨率的情况下,在计算粗分辨率相似度矩阵M1的相似度值期间已经计算出相似度矩阵M2中与某些偏移相对应的相似度值。如果存在可用的存储器容量,则可以存储粗分辨率相似度矩阵M1的一些计算出的相似度值或全部计算出的相似度值,以用于检测重复模式。

在设备200的进一步实施例中,设备200可以包括缓冲器(图2中未示出)。相应地,计算器201可以被配置为,在该缓冲器中存储粗分辨率相似度矩阵M1中与粗分辨率相似度矩阵M1的各偏移中的至少一部分相对应的相似度值。当要计算相似度矩阵M2中与一个偏移相对应的相似度值时,检测器203可以被配置为确定粗分辨率相似度矩阵M1中与该偏移相对应的相似度值是否被存储在缓冲器中。如果粗分辨率相似度矩阵M1中与该偏移相对应的相似度值被存储在缓冲器中,则检测器203从缓冲器中读取粗分辨率相似度矩阵M1中与该偏移相对应的相似度值,以作为相似度矩阵M2中要计算的相似度值。检测器203从读取出的相似度值中检测重复模式。

根据该实施例,针对包括N个音频帧的序列,由于自适应阈值是基于粗分辨率相似度矩阵的相似度值来估计的,因此与高分辨率(N×N)相似度矩阵的情况相比,在估计自适应阈值之前必须存储的相似度值的数目更小。由于在重复模式检测中已经估计出自适应阈值,因此可释放用于存储粗分辨率相似度矩阵的相似度值的存储器容量。利用所估计的自适应阈值,就可只存储与相似度矩阵的一个偏移相对应的相似度值,并以逐个偏移的方式从所存储的相似度值中检测重复模式。因此,可以减小存储器成本。

进一步改进

由于重复模式是从相似度矩阵M2中与一个偏移相对应的相似度值(也称为与该偏移相对应的行)中检测的,因此,可基于用于检测重复模式的准则,评估从相似度值中检测到重复模式的可能性。例如,如果一行中的相似度值大部分比较高,则存在较高的可能性从该行中检测到重复模式。再例如,如果一行中一个窗口内的相似度值比较高,则存在较高的可能性从该行中检测到预定长度的重复模式。在下文中,从中检测到重复模式的可能性较高的行的偏移被称为重要偏移。可以通过重要性得分来评估行的可能性。可以基于用于检测重复模式的准则来计算重要性得分。

在设备200的进一步实施例中,针对粗分辨率相似度矩阵M1的各偏移中的每个偏移l,计算器201可以被进一步配置为,基于粗分辨率相似度矩阵M1中与偏移l相对应的、计算出的相似度值s(t,l),计算重要性得分sig(l),重要性得分sig(l)用于评估检测到与偏移l相对应的重复模式的可能性。然后,计算器201将重要性得分sig(l)与和偏移l相关联的阈值TH(l)进行比较。如果重要性得分sig(l)大于阈值TH(l),则计算器201将偏移l确定为重要偏移。

如果偏移l被确定为重要的,则检测器203计算相似度矩阵M2中与落入围绕偏移l的范围内的偏移相对应的相似度值,并从相似度值中检测重复模式。换言之,重要偏移和它附近的偏移被包括在要由检测器203检测的偏移中。如果一个偏移未被确定为重要的或未落入该范围内,则检测器203可以在检测中忽略该偏移。相应地,可减小检测器203的计算成本。该范围的长度以及偏移l在该范围中的位置可以是预定义的,或者可以从统计信息中得知。以此方式,仅计算与重要偏移相对应的相似度值以用于检测重复模式。因此,可以减小计算成本。

此外或可替选地,在粗分辨率相似度矩阵M1在时间轴上具有与相似度矩阵M2相同的分辨率的情况下,如果一个偏移被确定为重要的,则计算器201可以在缓冲器中存储与该偏移相对应的相似度值,使得检测器203可以避免重复计算与该偏移相对应的相似度值,并可以重复使用缓冲器中存储的与该偏移相对应的相似度值。这也可以减小检测器203的计算成本。此外,仅存储与重要偏移相对应的相似度值以用于估计自适应阈值。因此,可以进一步减小存储成本。

在这些引入重要偏移的方法的一个变型中,相似度矩阵M1和M2可以具有相同的分辨率,包括高分辨率。在这种情况下,基于相似度矩阵M1确定自适应阈值和重要偏移,并基于自适应阈值和重要偏移从相似度矩阵M2中检测重复模式。

在一个计算与偏移l相对应的相似度值的重要性得分sig(l)的示例中,可将重要性得分计算为相似度矩阵中与偏移l相对应的、计算出的相似度值上的移动窗口中的最大平均值:

>sig(l)=maxt1WΣi=1Ws(t+i,l)---(6)>

其中W是窗口长度,可基于应用来设置。假定只要求长于10s的重复,则可将W设置为与10s相对应的帧的数目。在这种情况下,计算出的相似度值s(ti,l)被排列为对应的时滞相似度矩阵的一行,即,计算出的相似度值s(ti,l)是按照用于计算相似度值s(ti,l)的帧ti和ti+l的最小起始时间ti的顺序来排列的。

在计算与偏移l相对应的相似度值的重要性得分sig(l)的另一个示例中,可计算相似度矩阵中与该偏移相对应的、计算出的相似度值的平均值,以作为重要性得分sig(l)。

阈值TH(l)可以是预定义的、固定的、或基于相似度值而针对每个偏移自适应地计算的。在自适应计算的情况下,计算器201可以被进一步配置为,将与偏移l相关联的阈值TH(l)计算为与该偏移周围预定数目的偏移相对应的、计算出的重要性得分的平均值。例如,可以将阈值TH(l)计算为

>TH(l)=Σt=l-k1l+k2w(t)sig(t)---(7)>

其中,w(t)为加权函数,通常可设置为1/(k1+k2+1),0≤k1<l,0≤k2,且k1+k2≠0。在特别情况下,kl=l-1且k2=0。

在一些需要在线计算的情况下,可能只有一侧的重要性得分是可用的。换言之,粗分辨率相似度矩阵的相似度值是按照偏移的降序或升序来计算的。在这种情况下,计算器201可以被进一步配置为,将与偏移l相关联的阈值TH’(l)确定为预定数目Q的先前计算出的重要性得分中的最大值,例如,在升序情况下,将阈值TH’(l)确定为sig(l-1),...,sig(l-Q)的最大值。如果sig(l)>TH’(l),则将偏移l确定为重要的。可替选地,在这种情况下,计算器201可以被进一步配置为,如果sig(l)>TH(l)且sig(l0>TH’(l),则将偏移l确定为重要的。

以上基于阈值的对重要偏移的约束可以与以下改进中一个或更多个相结合。

改进1-可基于局部峰准则而对结果进行改进。在这种情况下,计算器201可以被进一步配置为,将重要性得分小于其附近偏移的重要性得分的任何重要偏移重新确定为非重要的。

改进2-计算器201可以被进一步配置为,将任何预期的重要偏移ls周围的预定范围内的偏移重新确定为重要偏移。换言之,可以将偏移l,lmin≤l≤lmax确定为重要的,其中lmin和lmax是重要偏移ls周围的预期范围的下界和上界。

图3是图示根据本发明实施例的在音频帧序列中检测重复模式的示例方法300的流程图。

如图3所示,方法300始于步骤301。

在步骤303,计算该序列的具有粗分辨率的相似度矩阵M1的相似度值s(t,l)。

在一个示例中,与相似度矩阵M2相比,相似度矩阵M1可以在时间轴中具有比相似度矩阵M2低的分辨率。在这种情况下,相似度矩阵M1可以具有逐段分辨率,而一个分段包括至少两个音频帧。

作为一个计算分段t和t+l之间的相似度值s(t,l),l>0的示例,可计算分段t的音频帧t+i和分段t+l的音频帧t+l+i之间的相似度值sh(t+i,l),0≤i≤W-1,其中W(例如W=10)是以音频帧为单位的分段的长度。可以将相似度值sh(t+i,l)进行平均以作为相似度值s(t,l)。例如,可以通过公式(1)计算相似度值s(t,l)。

作为一个计算分段t和t+l之间的相似度值s(t,l),l>0的示例,可从分段t的帧t,...,t+W-1获得数目为N的子样本ti并从分段t+l的帧t+l,...,t+l+W-1获得数目为N的子样本ti+l,即,ti=g(i),其中g()是下采样函数。一个示例是,g(i)=t+i×W/N,0≤i≤N-1。可替选地,g()也可以是非线性下采样函数。在这种情况下,可计算分段t的音频帧ti和分段t+l的音频帧ti+l之间的相似度值sh(ti,l),0≤i≤N-1。可以将相似度值sh(ti,l)进行平均以作为相似度值s(t,l)。例如,可以通过公式(1)计算相似度值s(t,l)。

在另一示例中,与相似度矩阵M2相比,相似度矩阵M1可以在偏移轴上具有比相似度矩阵M2低的分辨率。在这种情况下,在以帧为单位的情况下,相似度矩阵M1的偏移可以是不连续的。换言之,可以通过从集合O={1,...,L}中移除一个或更多个偏移来确定相似度矩阵M1的偏移,其中L是以帧为单位的序列的长度。

例如,相似度矩阵M1的偏移li可以是取自集合O的子样本,即,li=g(i),其中g()可为下采样函数,例如g(i)=n×i,以每n帧线性拾取一帧。可替选地,g()也可以是非线性下采样函数。在这种情况下,可以利用与第一示例一起描述的方法来计算相似度值s(t,li)。可替选地,针对两个分段t和t+li之间的相似度值s(t,li),可计算两个分段t和t+tj之间的相似度值s(t,tj),其中tj代表从li-m至li+n(m,n≥0且m+n≠0)的范围中的每个(高分辨率)偏移,并将相似度值s(t,tj),li-m≤tj≤li+n进行平均以作为相似度值sa(t,li)。例如,可以通过公式(3)计算相似度值sa(t,li)。

在另一个示例中,与相似度矩阵M2相比,相似度矩阵M1可以在偏移轴和时间轴二者上均具有比相似度矩阵M2低的分辨率。在这种情况下,可以利用与第一示例和第二示例一起描述的方法来计算相似度值s(t,l)。

在步骤305,根据相似度值估计自适应阈值,用于将相似度值分类为重复或非重复。可以将各种方法用于根据粗分辨率相似度矩阵来估计自适应阈值。

在一个示例中,当在步骤303计算粗分辨率相似度矩阵M1的各相似度值中的每一个时,可更新相似度值的统计信息,以用于估计自适应阈值。相应地,在步骤305,基于统计信息来估计自适应阈值。

作为一个示例,统计信息可以包括直方图,以用于累计落入各相似度值区间的每一个中的相似度值的数目。由于用于估计自适应阈值的统计信息可从直方图获得,因此,根据统计信息估计自适应阈值的各种方法也可以应用于直方图的情况。

在步骤307,针对相似度矩阵M2的一个或更多个偏移中的偏移l,计算相似度矩阵M2中与偏移l相对应的那些相似度值s(t,l)。

在步骤309,利用自适应阈值对计算出的相似度值s(t,l)进行分类,以获得二值化数据。

在步骤311,从二值化数据中检测重复模式。

相似度矩阵M2也可以是粗分辨率相似度矩阵。在这种情况下,可以利用与用于计算相似度矩阵M1的相似度值的方法相同的方法,计算相似度矩阵M2的相似度值。

在步骤313,确定是否还有另一个未处理的偏移。如果有,则方法300返回至步骤307,以计算相似度矩阵M2中与此另一个未处理偏移相对应的相似度值。如果没有,则方法300在步骤315终止。

在方法300的进一步实施例中,步骤303可以包括,在缓冲器中存储粗分辨率相似度矩阵M1中与粗分辨率相似度矩阵M1的各偏移中的至少一部分相对应的相似度值。当要计算相似度矩阵M2中与一个偏移相对应的相似度值时,步骤307可以包括,确定粗分辨率相似度矩阵M1中与该偏移相对应的相似度值是否被存储在缓冲器中。如果粗分辨率相似度矩阵M1中与该偏移相对应的相似度值被存储在缓冲器中,则步骤307可以包括,从缓冲器中读取粗分辨率相似度矩阵M1中与该偏移相对应的相似度值,以作为相似度矩阵M2中要计算的相似度值。

在方法300的进一步实施例中,针对粗分辨率相似度矩阵M1的各偏移中的每个l,步骤303可以包括,基于粗分辨率相似度矩阵M1中与偏移l相对应的、计算出的相似度值s(t,l),计算重要性得分sig(l),重要性得分sig(l)用于评估检测到与偏移l相对应的重复模式的可能性。步骤303可以进一步包括将重要性得分sig(l)与和偏移l相关联的阈值TH(l)进行比较。如果重要性得分sig(l)大于阈值TH(l),则步骤303可以进一步包括将偏移l确定为重要偏移。

如果偏移l被确定为重要的,则步骤307可以包括,计算相似度矩阵M2中与落入围绕偏移l的范围内的偏移相对应的相似度值。换言之,重要偏移和它附近的偏移被包括在要检测的偏移中。以此方式,如果一个偏移未被确定为重要的或未落入该范围内,则在检测中忽略该偏移。

此外或可替选地,在粗分辨率相似度矩阵M1在时间轴上具有与相似度矩阵M2相同的分辨率的情况下,如果一个偏移被确定为重要的,则步骤303可以进一步包括在缓冲器中存储与该偏移相对应的相似度值。

在这些引入重要偏移的方法的一个变型中,相似度矩阵M1和M2可以具有相同的分辨率,包括高分辨率。在这种情况下,基于相似度矩阵M1确定自适应阈值和重要偏移,并基于自适应阈值和重要偏移从相似度矩阵M2中检测重复模式。

在一个计算与偏移l相对应的相似度值的重要性得分sig(l)的示例中,可通过公式(6),将重要性得分计算为相似度矩阵中与偏移l相对应的、计算出的相似度值上的移动窗口中的最大平均值。在这种情况下,计算出的相似度值s(ti,l)被布置为对应的时滞相似度矩阵的一行,即,计算出的相似度值s(ti,l)是按照用于计算相似度值s(ti,l)的帧ti和ti+l的最小起始时间ti的顺序来排列的。

在另一个计算与偏移l相对应的相似度值的重要性得分sig(l)的示例中,可计算相似度矩阵中与该偏移相对应的、计算出的相似度值的平均值,以作为重要性得分sig(l)。

阈值TH(l)可以是预定义的、固定的、或基于相似度值而针对每个偏移自适应地计算的。在自适应计算的情况下,步骤303可以进一步包括,将与偏移l相关联的阈值TH(l)计算为与该偏移周围预定数目的偏移相对应的、计算出的重要性得分的平均值。例如,可以通过公式(7)计算阈值TH(l)。

在一些需要在线计算的情况下,可能只有一侧的重要性得分是可用的。换言之,粗分辨率相似度矩阵的相似度值是按照偏移的降序或升序来计算的。在这种情况下,步骤303可以进一步包括,将与偏移l相关联的阈值TH’(l)确定为预定数目Q的先前计算出的重要性得分中的最大值,例如,在升序情况下,将阈值TH’(l)确定为sig(l-1),...,sig(l-Q)的最大值。如果sig(l)>TH’(l),则将偏移l确定为重要的。可替选地,在这种情况下,步骤303可以进一步包括,如果sig(l)>TH(l)且sig(l)>TH’(l),则将偏移l确定为重要的。

以上基于阈值的对重要偏移的约束可以与以下改进中的一个或更多个相结合。

改进1-可基于局部峰准则而对结果进行改进。在这种情况下,步骤303可以进一步包括,将重要性得分小于其附近偏移的重要性得分的任何重要偏移重新确定为非重要的。

改进2-步骤303可以进一步包括,将任何预期的重要偏移ls周围的预定范围内的偏移重新确定为重要偏移。换言之,可以将偏移l,lmin≤l≤lmax确定为重要的,其中lmin和lmax是重要偏移ls周围的预期范围的下界和上界。

图4是图示用于实施本发明的各个方面的示例系统的框图。

在图4中,中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机访问存储器(RAM)403的程序执行各种处理。在RAM 403中,也根据需要存储当CPU401执行各种处理等等时所需的数据。

CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。

下列部件连接到输入/输出接口405:包括键盘、鼠标等等的输入部分406;包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分407;包括硬盘等等的存储部分408;和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分409。通信部分409经由例如因特网的网络执行通信处理。

根据需要,驱动器410也连接到输入/输出接口405。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质411根据需要被安装在驱动器410上,使得从中读出的计算机程序根据需要被安装到存储部分408。

在通过软件实现上述步骤和处理的情况下,从例如因特网的网络或例如可移除介质411的存储介质安装构成软件的程序。

本文中所用的术语仅仅是为了描述特定实施例的目的,而非意图限定本发明。本文中所用的单数形式的“一”和“该”旨在也包括复数形式,除非上下文中明确地另行指出。还应理解,“包括”一词当在本说明书中使用时,说明存在所指出的特征、整体、步骤、操作、单元和/或组件,但是并不排除存在或增加一个或更多个其它特征、整体、步骤、操作、单元和/或组件,以及/或者它们的组合。

以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。对本发明进行的描述只是出于图解和描述的目的,而非用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言,在不偏移本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

描述了下面的示例性实施例(均用″EE″表示)。

EE 1.一种在音频帧序列中检测重复模式的方法,包括:

计算该序列的第一相似度矩阵的相似度值,所述第一相似度矩阵具有第一分辨率;

根据所述相似度值估计自适应阈值,用于将所述相似度值分类为重复或非重复;以及

针对具有高于所述第一分辨率的第二分辨率的第二相似度矩阵的一个或更多个偏移中的每一个,

计算所述第二相似度矩阵中与该偏移相对应的相似度值;

利用所述自适应阈值对计算出的相似度值进行分类,以获得二值化数据;以及

从所述二值化数据中检测所述重复模式。

EE 2.根据EE 1所述的方法,其中,在以帧为单位的情况下,所述第一相似度矩阵的偏移是不连续的。

EE 3.根据EE 2所述的方法,其中,所述第一相似度矩阵的偏移是取自集合O={1,...,L}的子样本,其中L是以帧为单位的该序列的长度。

EE 4.根据EE 2或3所述的方法,其中,所述第一相似度矩阵和所述第二相似度矩阵中的至少一个的偏移轴具有逐段分辨率,并且与所述逐段分辨率相对应的分段包括预定数目的音频帧,并且

其中,针对始于音频帧t和t+l的两个分段之间的相似度值sa(t,l),l>0中的每一个,所述计算包括:

针对从l-m至l+n的范围中的每个偏移li,计算分别始于时间t和t+li的两个分段之间的相似度值s(t,li),m,n≥0且m+n≠0,以及

将相似度值s(t,li),l-m≤li≤l+n进行平均以作为相似度值sa(t,l)。

EE 5.根据EE 1或2所述的方法,其中,所述第一相似度矩阵和所述第二相似度矩阵中的至少一个的时间轴具有逐段分辨率,且与所述逐段分辨率相对应的分段包括至少两个音频帧。

EE 6.根据EE 5所述的方法,其中,所述第一相似度矩阵和所述第二相似度矩阵中的所述至少一个的相似度值被计算为子样本之间的相似度值,所述子样本来自所述分段的帧。

EE 7.根据EE 6所述的方法,其中,针对所述第一相似度矩阵和所述第二相似度矩阵中的所述至少一个的、始于音频帧t和t+l的两个分段之间的相似度值s(t,l),l>0中的每一个,所述计算包括:

针对所述两个分段的每对子样本t+ti和t+ti+l,计算子样本t+ti和t+ti+l之间的相似度值sh(t+ti,l);

将相似度值sh(t+ti,l)进行平均以作为相似度值s(t,l)。

EE 8.根据EE 5所述的方法,其中,针对所述第一相似度矩阵和所述第二相似度矩阵中的所述至少一个的、始于音频帧t和t+l的两个分段之间的相似度值s(t,l),l>0中的每一个,所述计算包括:

针对所述两个分段的每对音频帧t+i和t+i+l,计算音频帧t+i和t+i+l之间的相似度值sh(t+i,l);

将相似度值sh(t+i,l)进行平均以作为相似度值s(t,l)。

EE 9.根据EE 1所述的方法,其中,所述计算第一相似度矩阵的相似度值包括:

当计算所述相似度值中的每一个时,更新所述相似度值的统计信息,所述统计信息用于估计所述自适应阈值,并且

其中所述估计包括:

基于所述统计信息,估计所述自适应阈值。

EE 10.根据EE 9所述的方法,其中,所述统计信息包括直方图,所述直方图用于累计落入各相似度值区间的每一个中的相似度值的数目。

EE 11.根据EE 1所述的方法,其中,所述第一相似度矩阵在时间轴上具有与所述第二相似度矩阵相同的分辨率,所述方法进一步包括:

在缓冲器中存储所述第一相似度矩阵中与所述第一相似度矩阵的各偏移中的至少一部分相对应的那些相似度值,以及

其中所述第二相似度矩阵中与该偏移相对应的相似度值的所述计算包括:

确定所述第一相似度矩阵中与所述第二相似度矩阵中要计算的相似度值对应于相同偏移的相似度值是否被存储在所述缓冲器中;以及

如果所述第一相似度矩阵中对应于所述相同偏移的相似度值被存储在所述缓冲器中,则从所述缓冲器读取所述第一相似度矩阵中对应于所述相同偏移的相似度值,以作为所述第二相似度矩阵中要计算的相似度值。

EE 12.根据EE 11所述的方法,其中,所述第一相似度矩阵的相似度值的所述计算包括:

针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性;

将所述重要性得分与和该偏移相关联的阈值进行比较;以及

如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移,以及

其中所述重要偏移被包括在所述各偏移中的所述至少一部分中。

EE 13.根据EE 1所述的方法,其中,所述第一相似度矩阵的相似度值的所述计算包括:

针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性;

将所述重要性得分与和该偏移相关联的阈值进行比较;以及

如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移,以及

其中所述第二相似度矩阵的落入围绕所述重要偏移的范围内的偏移被包括在所述一个或更多个偏移中。

EE 14.根据EE 12或13所述的方法,其中,所述重要性得分被计算为:

所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值上的移动窗口中的最大平均值,所述计算出的相似度值是按照用于计算所述计算出的相似度值的帧的最小时间的顺序来排列的,或者

所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值的平均值。

EE 15.根据EE 12或13所述的方法,其中,和该偏移相关联的所述阈值被计算为与该偏移周围预定数目的偏移相对应的、计算出的重要性得分的平均值。

EE 16.根据EE 12或13所述的方法,其中,按照各偏移的降序或升序来计算所述第一相似度矩阵的相似度值,并且和该偏移相关联的所述阈值被确定为预定数目的、先前计算出的重要性得分的最大值。

EE 17.根据EE 12或13所述的方法,其中,按照各偏移的降序或升序来计算所述第一相似度矩阵的相似度值,并且和该偏移相关联的另一阈值被确定为预定数目的、先前计算出的重要性得分的最大值,并且

其中,所述比较包括,将所述重要性得分与和该偏移相关联的所述阈值相比较并将所述重要性得分与和该偏移相关联的所述另一阈值相比较,并且

其中,所述确定包括,如果所述重要性得分大于所述阈值和所述另一阈值,则将该偏移确定为重要偏移。

EE 18.根据EE 14至17中的一个所述的方法,其中,所述第一相似度矩阵的相似度值的所述计算进一步包括:

将重要性得分小于其附近偏移的重要性得分的重要偏移重新确定为非重要的。

EE 19.根据EE 14至18中的一个所述的方法,其中,所述第一相似度矩阵的相似度值的所述计算进一步包括:

将所述重要偏移附近的预定范围内的偏移重新确定为重要偏移。

EE 20.一种用于在音频帧序列中检测重复模式的设备,包括:

计算器,用于计算该序列的第一相似度矩阵的相似度值,所述第一相似度矩阵具有第一分辨率;

估计器,用于根据所述相似度值估计自适应阈值,用于将所述相似度值分类为重复或非重复;以及

检测器,用于针对具有高于所述第一分辨率的第二分辨率的第二相似度矩阵的一个或更多个偏移中的每一个,

计算所述第二相似度矩阵中与该偏移相对应的相似度值;

利用所述自适应阈值对计算出的相似度值进行分类,以获得二值化数据;以及

从所述二值化数据中检测所述重复模式。

EE 21.根据EE 20所述的设备,其中,在以帧为单位的情况下,所述第一相似度矩阵的偏移是不连续的。

EE 22.根据EE 21所述的设备,其中,所述第一相似度矩阵的偏移是取自集合O={1,...,L}的子样本,其中L是以帧为单位的该序列的长度。

EE 23.根据EE 22所述的设备,其中,所述第一相似度矩阵和所述第二相似度矩阵中的至少一个的偏移轴具有逐段分辨率,并且与所述逐段分辨率相对应的分段包括预定数目的音频帧,并且

其中,针对始于音频帧t和t+l的两个分段之间的相似度值sa(t,l),l>0中的每一个,所述计算器被配置为:

针对从l-m至l+n的范围中的每个偏移li,计算分别始于时间t和t+li的两个分段之间的相似度值s(t,li),m,n≥0且m+n≠0,以及

将相似度值s(t,li),l-m≤li≤l+n进行平均以作为相似度值sa(t,l)。

EE 24.根据EE 20或21所述的设备,其中,所述第一相似度矩阵和所述第二相似度矩阵中的至少一个的时间轴具有逐段分辨率,且与所述逐段分辨率相对应的分段包括至少两个音频帧。

EE 25.根据EE 24所述的设备,其中,所述第一相似度矩阵和所述第二相似度矩阵中的所述至少一个的相似度值被计算为子样本之间的相似度值,所述子样本来自所述分段的帧。

EE 26.根据EE 25所述的设备,其中,针对所述第一相似度矩阵和所述第二相似度矩阵中的所述至少一个的、始于音频帧t和t+l的两个分段之间的相似度值s(t,l),l>0中的每一个,所述计算器被进一步配置为:

针对所述两个分段的每对子样本t+ti和t+ti+l,计算子样本t+ti和t+ti+l之间的相似度值sh(t+ti,l);

将相似度值sh(t+ti,l)进行平均以作为相似度值s(t,l)。

EE 27.根据EE 24所述的设备,其中,针对所述第一相似度矩阵和所述第二相似度矩阵中的所述至少一个的、始于音频帧t和t+l的两个分段之间的相似度值s(t,l),l>0中的每一个,所述计算器被进一步配置为:

针对所述两个分段的每对音频帧t+i和t+i+l,计算音频帧t+i和t+i+l之间的相似度值sh(t+i,l);

将相似度值sh(t+i,l)进行平均以作为相似度值s(t,l)。

EE 28.根据EE 20所述的设备,其中,所述计算器被配置为,当计算所述相似度值中的每一个时,更新所述相似度值的统计信息,所述统计信息用于估计所述自适应阈值,并且

其中所述估计器被配置为基于所述统计信息估计所述自适应阈值。

EE 29.根据EE 28所述的设备,其中,所述统计信息包括直方图,所述直方图用于累计落入各相似度值区间中的每一个中的相似度值的数目。

EE 30.根据EE 20所述的设备,其中,所述第一相似度矩阵在时间轴上具有与所述第二相似度矩阵相同的分辨率,所述设备进一步包括:

缓冲器,并且

所述计算器被配置为在所述缓冲器中存储所述第一相似度矩阵中与所述第一相似度矩阵的各偏移中的至少一部分相对应的相似度值,并且

其中所述检测器被配置为

确定所述第一相似度矩阵中与所述第二相似度矩阵中要计算的相似度值对应于相同偏移的相似度值是否被存储在所述缓冲器中;以及

如果所述第一相似度矩阵中对应于所述相同偏移的相似度值被存储在所述缓冲器中,则从所述缓冲器读取所述第一相似度矩阵中对应于所述相同偏移的相似度值,以作为所述第二相似度矩阵中要计算的相似度值。

EE 31.根据EE 30所述的设备,其中,所述计算器被进一步配置为:

针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性;

将所述重要性得分与和该偏移相关联的阈值进行比较;以及

如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移,以及

其中所述重要偏移包括在所述各偏移中的所述至少一部分中。

EE 32.根据EE 20所述的设备,其中,所述计算器被配置为:

针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性;

将所述重要性得分与和该偏移相关联的阈值进行比较;以及

如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移,以及

其中所述第二相似度矩阵的落入围绕所述重要偏移的范围内的偏移被包括在所述一个或更多个偏移中。

EE 33.根据EE 31或32所述的设备,其中,所述重要性得分被计算为:

所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值上的移动窗口中的最大平均值,所述计算出的相似度值是按照用于计算所述计算出的相似度值的帧的最小时间的顺序来排列的,或者

所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值的平均值。

EE 34.根据EE 31或32所述的设备,其中,所述计算器被进一步配置为,将和该偏移相关联的所述阈值计算为与该偏移周围预定数目的偏移相对应的、计算出的重要性得分的平均值。

EE 35.根据EE 31或32所述的设备,其中,按照各偏移的降序或升序来计算所述第一相似度矩阵的相似度值,并且所述计算器被进一步配置为,将和该偏移相关联的所述阈值确定为预定数目的、先前计算出的重要性得分的最大值。

EE 36.根据EE 31或32所述的设备,其中,按照各偏移的降序或升序来计算所述第一相似度矩阵的相似度值,并且和该偏移相关联的另一阈值被确定为预定数目的、先前计算出的重要性得分的最大值,并且

其中,所述计算器被进一步配置为,

将所述重要性得分与和该偏移相关联的所述阈值相比较并将所述重要性得分与和该偏移相关联的所述另一阈值相比较,以及

如果所述重要性得分大于所述阈值和所述另一阈值,则将该偏移确定为重要偏移。

EE 37.根据EE 33至36中的一个所述的设备,其中,所述计算器被进一步配置为将重要性得分小于其附近偏移的重要性得分的重要偏移重新确定为非重要的。

EE 38.根据EE 33或37所述的设备,其中,所述计算器被进一步配置为将所述重要偏移周围的预定范围内的偏移重新确定为重要偏移。

EE 39.一种记录有计算机程序指令的计算机可读介质,所述指令在由处理器执行时使所述处理器能够进行在音频帧序列中检测重复模式的方法,所述方法包括:

计算该序列的第一相似度矩阵的相似度值,所述第一相似度矩阵具有第一分辨率;

根据所述相似度值估计自适应阈值,用于将所述相似度值分类为重复或非重复;以及

针对具有高于所述第一分辨率的第二分辨率的第二相似度矩阵的一个或更多个偏移中的每一个,

计算所述第二相似度矩阵中与该偏移相对应的相似度值;

利用所述自适应阈值对计算出的相似度值进行分类,以获得二值化数据;以及

从所述二值化数据中检测所述重复模式。

EE 40.一种在音频帧序列中检测重复模式的方法,包括:

计算该序列的第一相似度矩阵的相似度值,包括:

针对所述第一相似度矩阵的各偏移中的每一个,基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性;

将所述重要性得分与和该偏移相关联的阈值进行比较;以及

如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移;以及

在缓冲器中存储所述第一相似度矩阵中与所述重要偏移相对应的相似度值;

根据所述相似度值估计自适应阈值,用于将所述相似度值分类为重复或非重复;

针对与所述第一相似度矩阵具有相同分辨率的第二相似度矩阵,

从所述缓冲器读取所述第一相似度矩阵中对应于所述重要偏移的相似度值,以作为所述第二相似度矩阵中要计算的相似度值;

利用所述自适应阈值对读取出的相似度值进行分类,以获得二值化数据;以及

从所述二值化数据中检测所述重复模式。

EE 41.一种在音频帧序列中检测重复模式的设备,包括:

计算器,其计算该序列的第一相似度矩阵的相似度值,其中针对所述第一相似度矩阵的各偏移中的每一个,所述计算器

基于所述第一相似度矩阵中与该偏移相对应的、计算出的相似度值,计算重要性得分,所述重要性得分用于评估检测到与该偏移相对应的重复模式的可能性;

将所述重要性得分与和该偏移相关联的阈值进行比较;以及

如果所述重要性得分大于所述阈值,则将该偏移确定为重要偏移;以及

在缓冲器中存储所述第一相似度矩阵中与所述重要偏移相对应的相似度值;

估计器,其根据所述相似度值估计自适应阈值,用于将所述相似度值分类为重复或非重复;

检测器,其针对与所述第一相似度矩阵具有相同分辨率的第二相似度矩阵,

从所述缓冲器读取所述第一相似度矩阵中对应于所述重要偏移的相似度值,以作为所述第二相似度矩阵中要计算的相似度值;

利用所述自适应阈值对读取出的相似度值进行分类,以获得二值化数据;以及

从所述二值化数据中检测所述重复模式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号