首页> 中国专利> 媒体数据中的低复杂度重复检测

媒体数据中的低复杂度重复检测

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明描述了媒体数据中的代表性片段的时间位置的低复杂度检测。使用能够从媒体数据提取(例如，能够从媒体数据的分量获得)的一种或更多种特征类型中的第一类型将偏移值子集定位在媒体数据中的偏移值集合中。偏移值子集包括基于一个或更多个选择准则从偏移值集合中选择的值。使用一种或更多种特征类型中的第二类型基于偏移值子集标识候选种子时间点集合。

著录项

公开/公告号CN103999150A

专利类型发明专利
公开/公告日2014-08-20

原文格式PDF
申请/专利权人杜比实验室特许公司;杜比国际公司;
展开▼

申请/专利号CN201280061089.1
发明设计人巴尔巴拉·雷施;雷古纳森·拉达克里希南;阿里希特·比斯瓦斯;约纳什·恩德加德;
展开▼

申请日2012-12-10
分类号G10H1/00(20060101);G06K9/00(20060101);G06F17/30(20060101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人王萍;李春晖
地址美国加利福尼亚州
入库时间 2023-12-17 01:34:31

法律信息

法律状态公告日

法律状态信息

法律状态
2018-12-07

未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20161019 终止日期:20171210 申请日:20121210

专利权的终止
2016-10-19

授权

授权
2014-09-17

实质审查的生效 IPC(主分类):G10H1/00 申请日:20121210

实质审查的生效
2014-08-20

公开

公开

说明书

相关的美国申请

本申请要求于2011年12月12日提交的美国临时专利申请第 61/569,591号的优先权，其全部内容通过引用合并到本文中。本申请涉及于2010年12月30日提交的美国临时专利申请第61/428,578号、于2010 年12月30日提交的美国临时专利申请第61/428,588号以及于2010年12 月30日提交的美国临时专利申请第61/428,554号，其每个的全部内容通过引用合并到本文中。

技术领域

本发明总体上涉及媒体。更具体地，本发明的实施方式涉及媒体数据中的代表性片段的时间位置的低复杂度检测。

背景技术

媒体数据可以包括能够给收听者或观看者留下持久印象的代表性片段。例如，最流行的歌曲遵循在主歌部与副歌部之间交替的特定结构。通常，副歌部是歌曲中的最重复的部，也是歌曲中“吸引人的”部分。副歌部的位置通常与基本的歌曲结构有关，并且可以用于方便终端用户浏览歌曲收藏。

从而，在编码侧，代表性片段比如副歌部的位置可以在媒体数据比如歌曲中被标识，并且可以作为元数据与歌曲的编码比特流相关联。在解码侧，元数据使得终端用户能够在副歌部的位置处开始回放。当存储器处的媒体数据的合集比如歌曲合集被浏览时，副歌回放方便已知歌曲的即时识别和标识以及对于歌曲合集中未知歌曲的喜欢或不喜欢的快速评定。

在“聚类方法”(或状态方法)中，可以使用聚类技术将歌曲分割成不同部。基本的假定是：歌曲的不同部(比如主歌、副歌等)共享将一个部与其他部或歌曲的其他部分区分开的某些属性。

在“模式匹配方法”(或序列方法)中，假定副歌是歌曲中的重复部。重复部可以通过对歌曲的不同部进行相互匹配来识别。

“聚类方法”和“模式匹配方法”两者均要求根据输入音频剪辑计算距离矩阵。为了这样做，将输入音频剪辑划分成N个帧；从每个帧提取特征。然后，在输入音频剪辑的N个帧中的任意两个帧之间形成的总数的对中的每对帧之间计算距离。该矩阵的获得在计算上是昂贵的，并且要求高的存储器使用率，因为需要针对所有组合中的每个和逐个组合计算距离(这意味着N×N次的数量级，其中N是歌曲或输入音频剪辑中的帧的数量)。

该部分中所描述的方法是可以实行的方法，但不一定是前面已经设想或实行的方法。因此，除非另外指出，不应当假定该部分中所描述的方法中的任何方法仅由于它们包括在该部分中而视为现有技术。类似地，关于一个或更多个方法所识别的问题不应当假定已经基于该部分而在任何现有技术中被识别，除非另外指出。

附图说明

作为示例而非作为限制在附图中的多个图中示出了本发明，在附图中相似的附图标记指代相似的元素，在附图中：

图1A图示了根据本发明的实施方式的媒体处理系统的示例基本框图；

图1B图示了根据本发明的实施方式的通过若干迭代计算的示例距离矩阵；

图2图示了根据本发明的示例实施方式的示例媒体数据比如具有副歌部之间的偏移的歌曲；

图3图示了根据本发明的示例实施方式的示例距离矩阵；

图4图示了根据本发明的示例实施方式的粗声谱图的示例生成；

图5图示了根据本发明的示例实施方式的音调的示例螺旋；

图6图示了根据本发明的示例实施方式的示例频谱；

图7图示了根据本发明的示例实施方式的提取示例色度(chroma) 的示例梳状图样；

图8图示了根据本发明的示例实施方式的将帧的谱乘以梳状图样的示例操作；

图9图示了根据本发明的示例实施方式的与在有限的频率范围上计算的色度图有关的第一示例加权矩阵；

图10图示了根据本发明的示例实施方式的与在有限的频率范围上计算的色度图有关的第二示例加权矩阵；

图11图示了根据本发明的示例实施方式的与在有限的频率范围上计算的色度图有关的第三示例加权矩阵；

图12图示了根据本发明的示例实施方式的使用感知激励的BPF的与具有钢琴信号(具有逐渐增大的八度音的音符)的形式的示例媒体数据相关联的示例色度图图示；

图13图示了根据本发明的示例实施方式的与图12中所示的钢琴信号相关联的但是使用高斯加权的示例色度图图示；

图14图示了根据本发明的示例实施方式的媒体处理系统的示例详细框图；

图15图示了根据本发明的示例实施方式的包括指纹查询序列的示例指纹；

图16图示了根据本发明的示例实施方式的偏移值的示例直方图；

图17图示了根据本发明的示例实施方式的示例特征距离矩阵(色度距离矩阵)；

图18图示了根据本发明的示例实施方式的相似度矩阵的行的示例色度距离值、平滑距离值和所得到的用于场景变化检测的种子时间点；

图19A和图19B分别图示了根据本发明的示例实施方式的示例处理流程；以及

图20图示了根据本发明的可能实施方式的可以在其上实现本文中所描述的计算机或计算装置的示例硬件平台。

具体实施方式

在本文中描述了本发明的涉及媒体数据中的低复杂度重复检测的示例实施方式。在下面的描述中，出于说明的目的，为了提供对本发明的透彻的理解，阐述了大量具体细节。然而，将明显的是，可以在没有这些具体细节的情况下来实践本发明。在其他示例中，为了避免不必要地包括、模糊或迷乱本发明，不穷举地详细描述已知的结构和装置。

在本文中根据下面的概述来描述示例实施方式：

1.总体概述

2.特征提取的框架

3.基于谱的指纹

4.色度特征

5.其他特征

5.1 梅尔频率倒谱系数(MFCC)

5.2 节奏特征

6.重复部分的检测

6.1 指纹匹配

6.2 检测显著的(候选)偏移

6.3 色度距离分析

6.4 计算相似度行

7.使用场景变化检测的精细

8.等级评定

9.其他应用

10.示例处理流程

10.1.示例重复检测处理流程—指纹匹配和搜索

10.2.示例重复检测处理流程—混合方法

11.实现机制—硬件概述

12.等同、扩展、替选以及其他

1.总体概述

该概述给出了本发明的示例实施方式的一些方面的基本描述。应当注意，该概述不是可能的实施方式的各个方面的广泛的或穷尽的概要。此外，应当注意，该概述不意在被理解为标识可能的实施方式的任何特别显著的方面或元素，也不意在具体地描写可能的实施方式的任何范围或总体上描写本发明。该概述仅以压缩和简化的方式给出了与示例可能实施方式有关的一些概念，并且应当仅被理解为如下的示例实施方式的更详细的描述的概念上的前序。

本发明的一种实施方式提供了检测媒体数据中的重复的低复杂度功能。使用可从媒体数据提取的一种或更多种特征类型中的第一类型从媒体数据中的偏移值集合中选择偏移值子集。偏移值子集包括基于一个或更多个选择准则从偏移值集合中选择的偏移值。使用一种或更多种特征类型中的第二类型从偏移值子集中识别候选种子时间点集合。在一些情况下，在该框架中特征的第一类型和第二类型仅在时间分辨率方面不同。例如，可以以较低时间分辨率使用特征来首先快速地标识在其处有可能出现重复的偏移值子集。当标识在其处重复是可能的偏移值子集后，然后基于对相同特征的较高时间分辨率版本的分析来标识在这些所选择的偏移值处的候选种子时间点集合。可以使用一个或更多个计算系统、设备或装置、集成电路装置和/或媒体播放、再现、渲染或流媒体设备执行示例处理。可以使用编码或记录在计算机可读存储介质上的指令或软件控制、配置、编程或引导系统、装置和/或设备。

一种示例实施方式可以执行一个或更多个另外的重复检测处理，这可以在某种程度上涉及更多的复杂度。例如，在其中计算成本或等待时间较不重要或实现低复杂度重复检测的验证的应用中，示例实施方式还可以使用根据媒体内容的分量特征的一个或更多个媒体指纹的获得(例如，提取) 或使用多个(例如，第二)偏移时间点子集来检测媒体中的重复。

如本文中所描述的，媒体数据可以包括但不限于以下项中的一项或更多项：歌曲、音乐作品、配乐、唱片、诗、视听作品、电影或多媒体表示。在各种实施方式中，媒体数据可以从以下项中的一项或更多项获得：音频文件、媒体数据库记录、网络流应用、媒体小型应用程序、媒体应用、媒体数据比特流、媒体数据容器、无线广播媒体信号、存储媒体、有线信号或卫星信号。

很多不同类型的媒体特征能够从媒体数据提取，捕获结构属性、包括和声和旋律的调性、音色、节奏、响度、立体声混合、或媒体数据的声源的量(quantity)。如本文中所描述的能够从媒体数据提取的特征可以与很多媒体标准中的任意标准、12平均律的调音系统或除12平均律的调音系统以外的不同的调音系统有关。

这些类型的媒体特征中的一种或更多种可以用于生成媒体数据的数字表示。例如，捕获媒体数据的调性、音色或调性和音色两者的类型的媒体特征可以被提取，并且用于生成媒体数据例如在时域或频域中的完全数字表示。完全数字表示可以包括总共N个帧。数字表示的示例可以包括但不限于快速傅里叶变换(FFT)、数字傅里叶变换(DFT)、短时傅里叶变换(STFT)、修正离散余弦变换(MDCT)、修正离散正弦变换(MDST)、正交镜像滤波器(QMF)、复杂正交镜像滤波器(CQMF)、离散小波变换(DWT)或小波系数。

根据一些技术，可以计算N×N距离矩阵以确定具有某些代表特性的特定段是否存在于媒体数据中和存在于媒体数据中何处。代表特性的示例可以包括但不限于某些媒体特征比如语音的不存在或存在、重复特性比如最多重复或最少重复等。

鲜明相反，根据本文中所描述的技术，数据表示可以首先被简化成指纹。如本文中所使用的，指纹可以具有比从其获得指纹的数字表示的数据量小几个数量级的数据量，并且可以被高效地计算、搜索和比较。

根据本文中所描述的技术，非常优化的搜索和匹配步骤用于针对指纹查询序列快速标识在媒体数据中在其处具有某些代表特性的段有可能重复的偏移值集合(或简单地为偏移)。

在一些实施方式中，媒体数据的整个持续时间中的一些或全部可以被划分成多个时间部，每个时间部开始于时间点。特定查询时间点处的查询序列可以由多个部之一中的指纹序列形成，其开始于特定时间点，该特定时间点可以被称为指纹序列的查询时间点。

动态指纹数据库可以用于存储媒体数据的指纹以与查询序列比较。在一种实施方式中，动态指纹数据库以如下方式被构造，该方式使得查询序列中的指纹以及另外地和/或可选地查询序列附近的一些指纹被从动态数据库中排除。

简单的线性搜索和比较操作可以用于确定与查询序列有关的动态数据库中的所有重复或相似的指纹序列。设置指纹查询序列、构造动态指纹数据库以及执行查询序列的线性搜索和比较操作以获得媒体数据中的相似或匹配序列的这些步骤可以对于所有时间点重复。对于每个查询时间点 (t_q)，我们记录在其处发现最好匹配序列的时间点(t_m)。我们计算表示查询点与数据库中的其相应的匹配序列之间的时间差的等于(t_m-t_q)的偏移值。因此，可以为媒体数据建立与查询序列中每个对应的偏移值集合。

根据该偏移值集合，还可以基于一个或更多个选择准则从偏移值集合中选择显著偏移值或偏移值子集。在一个示例中，一个或更多个选择准则可以与偏移值的出现频率有关。与超过某个阈值的出现频率相关联的偏移值可以包括在偏移值子集中——这可以被称为显著偏移值。在一些实施方式中，可以使用表示偏移值的出现频率的一个或更多个直方图来标识显著偏移值。

示例低复杂度方法

在一些实施方式中，可以使用距离矩阵的低分辨率表示来标识显著偏移值。根据下面将描述的示例方法来计算低时间分辨率距离矩阵。一种实施方式使用假定表示整个歌曲或其他音乐内容的N个特征向量(f₁、 f₂…f_i…f_N)起作用。根据特征向量f(i)(其中i指代帧索引)计算全距离矩阵，其中，D(o，i)＝dist(f(i)，f(i+o))，以及其中，o表示偏移值的索引。对于子采样距离矩阵(例如，低时间分辨率)，根据D(o，t)＝dist(f(Ki)，f(Ki+o))简单跳过来自特征向量的某些帧，其中K表示子采样因子，表示整数例如 K＝2、3、4…。实现了一种子采样因子包括2的实施方式。

当计算低分辨率距离矩阵时，如下所述执行计算，以便获得在其处出现重复的显著偏移子集。首先，对距离矩阵的行进行平滑(例如，使用几秒长度的MA滤波器)。该平滑矩阵中的低值与其长度类似于平滑滤波器的长度的音频段对应。搜索平滑距离矩阵得到局部最小值的点以查找显著偏移。实施方式根据下面列举的示例步骤迭代地查找最小值：

1.查找最小值(产生偏移，以及时间值：o_min，n_m，in)

d_min＝min(D(o，i)),其中d_min＝D(o_min，n_m，in)。

2.将偏移值记录为显著偏移。

3.通过设置D(o_min±y_o，n_min，±r_n)＝∞以在用于查找最小值的下一轮的某个范围内排除所查找到的最小值周围的值，其中，r_o＝0，1，...，R_nr_n＝0，1，...，N_n。(实现了如下实施方式：其中N_n等于帧的数量(＝D的列的数量)，例如，排除所记录的显著偏移的所有列(时间帧))。

4.从示例步骤1开始重复，直到达到期望数量的显著偏移。一种实施方式用最小数量M_min、最大数量M_max以及色度距离值的阈值TH定义了显著偏移的数量。获得M_min或更多偏移(例如，M_min＝3)。然后检查关于色度距离值的条件以确保所查找的值足够低，例如，多达数量M_max(例如，M_max＝10)个偏移。根据全局最小值(例如，在第一迭代中查找到的最小值)确定阈值，例如d_min*1.25。这在某种程度上改变了上述示例步骤。例如，在一种实施方式中，步骤1和步骤4如下述改变如下。

1.查找最小值(产生偏移，以及时间值：o_min，n_m，in)

d_min＝min(D(o，i)),其中d_min＝D(o_min，n_m，in)。

如果获得M_min个偏移，则检查色度距离阈值：如果d_min＜TH则继续步骤2，否则停止。

4.从步骤1开始重复(例如，直到获得M_max个偏移)。

图1B图示了示例距离矩阵1000，这通过四次(例如，4期间)迭代1001、 1002、1003和1004来计算。所检测到的最小值使用黑色十字表示。在每次迭代之后，对于下一次迭代的搜索排除先前最小值周围的范围。

从而，本发明的示例实施方式提供了检测媒体数据中的重复的低复杂度功能。使用能够从媒体数据提取(例如，能够从媒体数据的分量获得) 的一种或更多种特征类型中的第一类型从媒体数据中的偏移值集合中选择偏移值子集。偏移值子集包括基于一个或更多个选择准则从偏移值集合中选择的值。使用一种或更多种特征类型中的第二类型基于偏移值子集来标识候选种子时间点集合。可以使用一个或更多个计算系统、设备或装置、集成电路装置、和/或媒体播放、再现、渲染或流媒体设备来执行示例处理。可以使用编码或记录在计算机可读存储介质上的指令或软件来控制、配置、编程或引导系统、装置和/或设备。

一种示例实施方式可以执行一个或更多个另外的重复检测处理，这可以在某种程度上涉及较多的复杂度。例如，在其中计算成本或等待时间较不重要或实现低复杂度重复检测的验证的应用中，示例实施方式还可以使用根据媒体内容的分量特征的一个或更多个媒体指纹的获得(例如，提取) 或使用多个(例如，第二)偏移时间点子集来检测媒体中的重复。

根据本文中所描述的技术，可以仅在时间差等于显著偏移值处在特征之间执行基于特征的比较或距离计算。根据本文中所描述的技术，可以避免如现有技术中所要求的使用覆盖媒体数据的整个持续时间的N个帧的整个距离矩阵。在一些可能的实施方式中，还可以对包括根据指纹分析的时间点的时间位置(例如，tm和tq)的有限时间范围执行显著偏移值处的特征比较。

在一种实施方式中，具有等于如本文中所描述的显著偏移值的时间差的特征之间的基于特征的比较或距离计算可以基于特征的第二类型，以标识候选种子时间点集合。第二特征类型可以与用于生成显著偏移值的特征类型相同。可替代地和/或可选地，这些基于特征的比较或距离计算可以基于与用于生成显著偏移值的特征类型不同的特征类型。

在一种实施方式中，具有等于如本文中所描述的显著偏移值的时间差的特征之间的基于特征的比较或距离计算可以产生与向量的欧几里得距离、均方差、误比特率、基于自相关的度量或汉明距离中的一个或更多个有关的相似度值或相异度值。在一种实施方式中，可以应用滤波器对相似度值或相异度值进行平滑。这样的滤波器的示例可以是但不限于巴特沃斯低通滤波器、滑动平均滤波器等。

在一种实施方式中，经滤波的相似度值或相异度值可以用于标识显著偏移值中每个的种子时间点集合。例如，种子时间点可以与经滤波的值中的局部最小值或最大值对应。

本发明的实施方式有效且高效地使得能够标识副歌部或在浏览歌曲的大部分时可能适合于重放或预览的简短部分、铃声等。为了播放媒体数据如歌曲中的一个或更多个代表性片段，一个或更多个代表性片段在媒体中的位置例如可以在编码阶段由媒体生成器编码在媒体数据比特流中。然后，媒体数据比特流可以由媒体数据播放器解码以恢复代表性片段的位置并且播放代表性片段中的任意片段。

在一种实施方式中，如本文中所描述的机制形成媒体处理系统的一部分，媒体处理系统包括但不限于：手持装置、游戏机、电视机、便携式电脑、上网本电脑、蜂窝式无线电话、电子书阅读器、销售点终端、台式电脑、计算机工作站、计算机亭或各种其他类型的终端和媒体处理单元。

对本文中所描述的优选实施方式和总体原理以及特征进行的各种修改对本领域普通技术人员来说明显的。从而，本公开内容不意在限于示出的实施方式，而是应当符合与本文中所描述的原理和特征一致的最宽范围。

2.特征提取的框架

在一种实施方式中，如图1所示，在此媒体处理系统可以包括四个主要部件。特征提取部件可以从媒体数据如歌曲提取各种类型的特征。重复检测部件例如可以基于如以媒体数据的所提取的特征表示的媒体数据的时间部中的媒体数据的某些特性如歌曲的旋律、和声、歌词、音色，来查找媒体数据的重复的时间部。

在一种实施方式中，重复片段可以经受由场景变化检测部件执行的精细处理，这查找表示包括所选择的重复部的片段的正确的开始时间点和结束时间点。这些正确的开始时间点和结束时间点可以包括媒体数据中的一个或更多个场景处理不同特性的开始场景变化点和结束场景变化点。一对开始场景变化点和结束场景变化点可以表示候选代表性片段。

由等级评定部件执行的等级评定算法可以应用于从所有候选代表性片段中选择代表性片段的目的。在具体实施方式中，所选择的代表性片段可以是歌曲的副歌。

在一种实施方式中，本文中所描述的媒体处理系统可以被配置成执行指纹匹配和色度距离分析的组合。根据本文中所描述的技术，该系统可以以相对低复杂度高性能地操作来处理大量媒体数据。指纹匹配使得能够快速且低复杂度地在媒体数据中搜索重复的最好匹配的片段。在这些实施方式中，标识在其处出现重复的偏移值集合。

一种实施方式使用较低时间分辨率下的第一等级色度距离分析来标识在其处出现重复的偏移值集合。然后，仅在这些偏移处应用更准确的较高时间分辨率色度距离分析。相对于媒体数据的相同时间间隔，色度距离分析可以比指纹匹配分析更可靠和精确但以较高复杂度为代价。

相反，组合和/或混合(组合/混合)方法使用最初的低复杂度级来标识在其处出现重复的显著偏移值集合。在该低复杂度级处，实施方式可以使用指纹匹配来标识显著偏移或使用较低时间分辨率色度距离矩阵分析来起作用。这避免了高分辨率色度距离分析，除非应用于媒体数据中的某些显著偏移，在计算复杂度和存储器使用方面实现了显著节约。例如，在媒体数据的整个持续时间上应用高分辨率色度距离分析在处理复杂度和存储器消耗方面具有显著较多的计算代价。

如上所述，一些重复检测系统计算全距离矩阵，全距离矩阵包括由媒体数据的所有N个帧中的任意两帧形成的所有组合中的每个与每一个之间的距离。全距离矩阵的计算可能计算上昂贵并且要求高存储器使用。图 2图示了具有所示的第一副歌部与第二副歌部之间的偏移的示例媒体数据如歌曲。图3示出了用于距离计算的具有两个维度时间和偏移的示例距离矩阵。偏移表示两个帧之间的时间滞后，根据时间滞后计算关于特征的相异度值(或距离)(或相似度)。将重复部表示为水平黑线，对应于相隔一定偏移的一部分连续帧到另一部分连续帧的低的距离。

根据本文中所描述的技术，可以避免计算全距离矩阵。替代地，可以分析指纹匹配数据来提供重复的近似位置以及(相邻重复)近似位置之间的相应偏移。从而，可以避免由不等于显著偏移之一的偏移值分离的特征之间的距离计算。在一些可能的实施方式中，还可以对包括根据指纹分析时间点(tm和tq)的时间位置的有限时间范围执行显著偏移值处的特征比较。在一种实施方式中，较低时间分辨率距离矩阵被计算以标识显著偏移集合。因此，即使根据本文中所描述的技术使用距离矩阵，这样的距离矩阵可以相对于根据其他技术的全距离矩阵仅包括针对其要计算距离的几行和几列，随之而来计算节约。

3.基于谱的指纹

指纹提取(例如，从内容分量的指纹获得)创建了可以用作媒体数据的基本部的标识符的紧凑的比特流表示。通常，出于检测媒体数据的不良倾向的目的，可以以如下方式设计指纹，该方式使得拥有对于各种信号处理/操纵操作包括编码、动态范围压缩(DRC)、均衡等的鲁棒性。然而，出于如本文中所描述的查找媒体数据中的重复部的目的，由于指纹的匹配出现在相同歌曲内，所以可以放松指纹的鲁棒性要求。必须由典型的指纹识别系统处理的恶意攻击在如本文所描述的媒体数据中将不存在或相对罕见。

此外，本文中的指纹提取可以基于粗声谱图表示。例如，在媒体数据为音频信号的实施方式中，音频信号可以被下混至单声道信号，并且可以另外地和/或可选地被下采样至16kHz。在一些实施方式中，媒体数据如音频信号可以被处理成但不限于单声道信号，并且还可以被划分成重叠块。可以根据重叠块中的每个来创建声谱图。可以通过沿时间和频率两者平均来创建粗声谱图。前述操作可以提供对声谱图中沿时间和频率的相对小的变化的鲁棒性。应当注意，在一种实施方式中，本文中的粗声谱图还可以以比声谱的其他部分强调声谱的某些部分的方式被选择。

图4图示了根据本发明的示例实施方式的粗声谱图的示例生成。(输入)媒体数据(例如，歌曲)首先被划分成具有步长大小T₀＝16毫秒(ms)、持续时间T_ch＝2秒的块。对于音频数据的每个块(X_ch)，可以使用某个时间分辨率(例如，128采样或8ms)和频率分辨率(256采样FFT)来计算声谱图。所计算的声谱图S可以使用时间频率块来平铺。时间频率块每个内的声谱的幅度可以被平均以获得声谱图S的粗表示Q。S的粗表示Q 可以通过对大小W_f×W_t的时间频率块中的频率系数的幅度求平均来获得。在此，W_f是块沿频率的大小，以及W_t是块沿时间的大小。其中，F 表示块沿频率轴的数量，以及T是块沿时间轴的数量，因此Q具有大小 (F*T)。可以在下面给出的表达式(1)中计算Q：

$(\begin{matrix} Q (k, l) = \frac{1}{W_{f} * W_{t}} Σ_{i = (k - 1) W_{f}}^{k W_{f}} Σ_{j = (l - 1) W_{t}}^{l W_{t}} S (i, j) \\ k = 1,2 . . . F; l = 1,2 . . . T \end{matrix})$ (表达式1)

在表达式1中，i和j表示声谱图中频率和时间的索引，以及k和l 表示其中执行平均操作的时间频率块的索引。在一种实施方式中，F可以包括正整数(例如，5、10、15、20等)，以及T可以包括正整数(例如， 5、10、15、20等)。

在一种实施方式中，块的声谱图的粗表示(Q)的低维表示可以通过将声谱图投影在伪随机向量上来创建。伪随机向量可以被认为是基本向量。可以生成数量K个伪随机向量，其中每个可以具有与矩阵Q(F×T)相同的维数。矩阵项目可以是[01]中的均匀分布的随机变量。随机数生成器的状态可以基于秘钥设置。伪随机向量可以被表示为P₁，P₂，...P_K，每个具有维数(F×T)。可以计算每个矩阵P_i的均值。P_i(i从1到K)中的每个矩阵元素可以减去矩阵P_i的均值。然后，矩阵Q可以如下面的表达式 2所示被投影到这些K个随机向量上：

$H_{k} = Σ_{i = 1}^{M} Σ_{j = 1}^{N} Q (i, j) * P_{k} (i, j)$ (表达式2)

在表达式2中，H_k表示矩阵Q在随机向量P_k上的投影。使用这些投影(H_k，k＝1、2、…K)的中值作为阈值，可以生成矩阵Q的数量K的哈希位。例如，如果投影H_k大于阈值，则可以对于第k个哈希位生成哈希位‘1’。否则，如果投影H_k不大于阈值，则可以生成哈希位‘0’。在一种实施方式中，K可以是正整数如8、16、24、32等。在一个示例中，如本文所描述的可以针对音频数据的每个16ms创建24个哈希位的指纹。包括这些24位码字的指纹序列可以用作指纹序列表示的音频的特定块的标识符。在一种实施方式中，本文中所描述的指纹提取的复杂度可以为约 2.58MIPS。

本文中的粗表示Q已经被描述为从FFT系数获得的矩阵。应当指出的是，这仅是出于说明的目的。可以使用获得各种粒度的表示的其他方式。例如，从快速傅里叶变换(FFT)、数字傅里叶变换(DFT)、短时傅里叶变换(STFT)、修正离散余弦变换(MDCT)、修正离散正弦变换(MDST)、正交镜像滤波器(QMF)、复杂正交镜像滤波器(CQMF)、离散小波变换(DWT)或小波系数获得的不同的表示、色度特征、或其他方法可以用于获得媒体数据的块的码字、哈希位、指纹以及指纹序列。

4.色度特征

如本文所使用的，术语色度图可以涉及n-维色度向量。例如，对于 12平均律的调音系统中的媒体数据，可以将色度图定义为12-维色度向量，在12-维色度向量中每个维与半音等级(色度)的强度(或可替代地幅度) 对应。可以对于其他调音系统定义色度向量的不同维。可以通过将音频谱映射和折叠成单个八度音来获得色度图。色度向量表示色度上的幅度分布，色度可以被离散化成八度音内的12个音级。色度向量捕获音频信号的旋律内容和和声内容，并且可能没有如上面结合用于确定重复部或相似部的指纹所讨论的声谱图对音色的变化敏感。

如图5所示，可以通过投影或折叠在音调的螺旋上将色度特征可视化。术语“色度”指代音乐音调在特定八度音内的位置；如图5中从侧面看到的，特定八度音可以与音调的螺旋的一周对应。实质上，如图5中直接从上面看到的，色度指代在螺旋的圆周上的位置，而不考虑八度音在图 5的螺旋上的高度。另一方面，如从图5侧面看到的，术语“高度”指代螺旋的圆周上的垂直位置。由具体高度表示的垂直位置与具体高度的具体八度音中的位置对应。

音符的存在可以与频域中的梳状图样的存在相关联。该图样可以包括大约在与分析语调的基频的倍数对应的位置处的波瓣。这些波瓣精确地是可以包含在色度向量中的信息。

在一种实施方式中，特定色度处的幅度谱的内容可以使用低通滤波器 (BPF)过滤出。幅度谱可以乘以BPF(例如，汉明窗函数)。BPF的中心频率以及宽度可以由特定色度和大量高度值确定。BPF的窗口可以集中在作为色度和高度的函数的Shepard频率处。幅度谱中的独立变量可以是频率Hz，频率Hz可以被转换成森特(例如，100森特等于半调)。BPF 的宽度特定于色度的事实源于音符(或投影到图5的螺旋上的特定八度音上的色度)在频率中不是线性间隔而是对数间隔的事实。较高音调音符(或色度)比较低音调音符在谱上相互远离更远，所以较高八度音处的音符之间的频率间隔比较低八度音处的音符之间的频率间隔较宽。尽管人耳能够感知低频下的音调中的很小的差异，但是人耳仅能够感知高频下的音调中的相对显著的变化。由于与人类感知有关的这些原因，BPF可以被选择为在相对高的频率处具有相对宽的窗口以及具有相对大的幅度。从而，在一种实施方式中，这些BPF滤波器可以是感知激励的。

色度图可以由具有4096采样的汉明窗的短时傅里叶变换(STFT)计算。在一种实施方式中，快速傅里叶变换(FFT)可以用于执行计算，FFT 帧可以移位1024个样本，而离散时间步长(例如，1帧移位)可以是46.4 (或本文中简单表示为46)毫秒(ms)。

第一，可以计算46ms帧的频谱(如图6所示)。第二，音符的存在可以与频谱中的梳状图样相关联，包括位于给定音符的各种八度音的位置处的波瓣。如图7所示，梳状图样可以用于提取例如色度D。梳状图样的峰值可以位于147、294、588、1175、2350和4699Hz处。

第三，为了从歌曲的给定帧提取色度D，可以将帧的谱乘以上述梳状图样。相乘的结果在图8中示出，并且表示计算该帧的色度向量中的色度 D所需要的所有谱内容。然后，该元素的幅度简单地是沿频率轴的谱的总和。

第四，为了计算其余11个色度，本文中的系统可以生成色度中每个的适当的梳状图样，并且对原始谱重复相同的处理。

在一种实施方式中，可以使用高斯加权(在对数频率轴上；这可以但不限于被归一化)计算色度图。高斯加权可以以在对数频率轴上表示为中心频率“f_ctr”的对数频率点为中心。中心频率“f_ctr”可以被设置成ctroct (以八度音或森特/1200为单位，参考原点在AO处)的值，这对应于以 Hz为单位的27.5*(2^ctroct)的频率。高斯加权可以被设置有高斯半宽f_sd，这可以被设置成以八度音为单位的octwidth的值。例如，高斯加权的幅度在中心频率“f_ctr”上下以因子2^octwidth下降至exp(-0.5)。换言之，在一种实施方式中，替代使用先前描述的单独的感知激励的BPF，可以使用单个高斯加权滤波器。

从而，对于ctroct＝5.0以及octwidth＝1.0),高斯加权的峰值在880Hz处，并且加权在440Hz和1760Hz处降至近似0.6。在各种示例实施方式中，高斯加权的参数可以预设，以及另外和/或可选地，可由用户手动和/或由系统自动配置。在一种实施方式中，可以存在或配置ctroct＝5.1844(其给出f_ctr＝1000Hz)以及octwidth＝1的默认设置。从而，该示例默认设置的高斯加权的峰值在1000Hz处，并且加权在500Hz和2000Hz处降至近似0.6。

从而，在这些实施方式中，可以在相当有限的频率范围上计算本文中的色度图。这可以从如图9所示的相应加权矩阵的图示中看到。如果高斯加权的f_sd以八度音为单位增大到2，则高斯加权的加权扩展也增大。相应的加权矩阵的图示看起来如图10所示。作为比较，当以具有3至8八度音的值的f_sd操作时，加权矩阵看起来如图11所示。

图12图示了使用感知激励BPF的与具有钢琴信号(具有逐渐增大的八度音的音符)的形式的示例媒体数据相关联的示例色度图图示。相比之下，图13图示了使用高斯加权的与相同钢琴信号相关联的示例色度图图示。为了进行两个色度图图示之间的比较，将帧和移位选择成完全相同。

两个色度图图示中的图案看起来相似。感知激励的带通滤波器可以提供更好的能量集中和分离。这对于较低的音符是可见的，其中由高斯加权生成的色度图图示中的音符看起来较模糊。尽管不同的BPF可以不同地影响色度识别应用，但是感知激励的滤波器对于片段(例如，副歌)提取带来很少增加的益处。

在一种实施方式中，如本文中所描述的色度图和指纹提取可以对具有 16kHz采样的音频信号的形式的媒体数据进行操作。可以使用FFT用 3200采样汉明窗用STFT计算色度图。FFT帧可以使用50ms的离散时间步长(例如，1帧移位)移位800个样本。应当注意，可以由本文中的技术处理其他采样的音频信号。此外，为了本发明的目的，使用不同的变换、不同的滤波器、不同的窗函数、不同数量的样本、不用的帧移位等所计算的色度图也在本发明的范围内。

5.其他特征

本文中的技术可以使用从媒体数据提取的各种特征如MFCC、节奏特征以及该部分中描述的能量。如先前指出的，本文中所描述的所提取的特征中的一些或全部还可以应用于场景变化检测。另外地和/或可选地，这些特征中的一些或全部还可以如本文中所描述的由等级评定部件使用。

5.1梅尔频率倒谱系数(MFCC)

梅尔频率倒谱系数(MFCC)旨在提供音频信号的谱包络的紧凑表示。 MFCC特征可以提供音色的良好描述，并且也可以用于如本文中所描述的技术的音乐应用中。

5.2节奏特征

可以在Hollosi,D.、Biswas,A.，“Complexity Scalable Perceptual Tempo Estimation from HE-AAC Encoded Music”，第128次AES会议, 伦敦，英国,2010年5月22至25日中查找计算节奏特征的一些算法细节，其全部内容通过引用以合并到本文中如同在本文中完全阐述一样。在一种实施方式中，可以基于调制频率进行根据HE-AAC编码音乐的感知拍子估计。本文中的技术可以包括感知拍子校正级，其中节奏特征用于校正八度音误差。可以如下描述用于计算节奏特征的示例过程。

在第一步骤中，计算功率谱；然后执行梅尔刻度变换。该步骤解决人类听觉系统的非线性频率感知同时将谱值的数量减少到仅几个梅尔带。通过应用非线性压缩扩展函数实现带的数量的进一步减少，以使得根据音乐信号中的大部分节奏信息位于较低的频率区域中的假设将较高的梅尔带映射到单个带。该步骤共享在MFCC计算中使用的梅尔滤波器组。

在第二步骤中，计算调制谱。该步骤从本文中所描述的媒体数据提取节奏信息。节奏可以由调制谱中的某些调制频率处的峰值表示。在示例实施方式中，为了计算调制谱，压缩扩展的梅尔功率谱可以被分割成在时间轴上具有某些重叠的6s长度的时间块。可以根据涉及捕获音频信号的“长时间节奏特性”的计算复杂度的成本与收益之间的折衷来选择时间块的长度。随后，可以沿时间轴应用FFT以获得针对每个6s块的联合频率(调制谱：x轴-调制频率以及y轴-压缩扩展梅尔带)表示。通过使用从大的音乐数据集的分析获得的感知加权函数沿调制频率轴对调制谱进行加权，可以抑制很高和很低的调制频率(以使得可以选择用于感知拍子校正级的有意义的值)。

在第三步骤中，然后可以从调制谱提取节奏特征。对场景变化检测有利的节奏特征为：节奏强度、节奏规律性以及低音部。节奏强度可以被定义为在压缩扩展的梅尔带上的总和之后的调制谱的最大值。节奏规律性可以被定义为在归一化为1之后的调制谱的均值。低音部可以被定义为具有高于一(1)Hz的调制频率的两个最低的压缩扩展的梅尔带中的值的和。

6.检测重复部分

在一种实施方式中，本文中所描述的重复检测(或重复部分的检测) 可以基于指纹和色度特征两者。在一种实施方式中，最初，可以执行使用基于树的搜索的指纹查询，以识别音频信号的每个片段的最好匹配，由此给出一个或更多个最好匹配。随后，来自最好匹配的数据可以用于确定在其处出现重复的偏移值，以及计算并且进一步分析色度距离矩阵的相应行。图14图示了系统的示例详细框图，并且图示了如何处理所提取的特征以检测重复部。

6.1指纹匹配

在一种实施方式中，使用本文中所描述的技术，图14的指纹匹配模块可以快速标识在媒体数据如输入歌曲中出现重复片段的偏移值或时间滞后。在一种实施方式中，如图15所示，对于歌曲的每0.64s时间增加 (最初在起始时间点＝0开始，之后增加0.64s)，与歌曲的8s时间间隔(在起始时间点开始每0.64s增加)对应的488个24-位指纹码字序列可以用作指纹查询序列。可以使用匹配算法来查找该查询序列的最好匹配，包括歌曲的其余指纹位(与排除指纹查询序列的其余持续时间对应)中的指纹位的数量(例如，488个24-位指纹码字)。

更具体地，在一种实施方式中，在起始时间点(例如，t＝0、0.64s、 1.28s、…等)，覆盖歌曲的8s间隔(开始于，例如，t＝0.64s、1.28s、… 等)的指纹码字查询序列可以用于询问动态指纹数据库中的其余指纹。可以从存储歌曲的排除歌曲的某些部分的指纹之外的其余指纹位的该动态指纹位数据库查找最好匹配位序列。可以进行优化以提高鲁棒性在于：动态指纹数据库可以排除与从查询序列的(当前)起始时间点开始的某个时间间隔对应的一部分指纹。当可以假定待检测的片段在某个最小偏移之后重复时，可以应用该优化。优化避免以较小偏移(例如，仅以几秒偏移重复的音乐模式)出现的重复的检测。例如，可以进行优化，以使得动态指纹数据库可以排除与从查询序列的(当前)起始时间点开始的(～20s)19.2 s时间间隔对应的一部分指纹。当下一个起始时间点t＝0.64s被设置成当前起始时间点时，与歌曲的0.64s至8.64s对应的指纹可以用作查询。现在动态指纹数据库可以排除与(0.64s至19.84s)对应的歌曲的时间间隔。在一种实施方式中，与先前起始时间点与当前起始时间点之间的时间间隔 (例如，0至0.64s)对应的一部分指纹可以被添加至动态指纹数据库。从而，在每个当前起始时间点处更新动态数据库，并且执行搜索以查找从当前起始时间点开始的指纹位查询序列的最好匹配位序列。对于每次搜索，可以记录下面的两个结果：

●在其处查找到最好匹配部分的偏移；以及

●查询序列与动态数据中的最好匹配部之间的汉明距离。

在一种实施方式中，与本文中所描述的指纹查询序列有关的搜索可以使用256-ary树数据结构来高效地执行，并且能够在高维二进制空间中查找近似最近邻。该搜索还可以使用其他近似最近邻搜索算法如LSH(局部敏感哈希)、最小哈希等来执行。

6.2检测显著(候选)偏移

图14的指纹匹配模块返回关于歌曲中的每个0.64s增加的歌曲中的最好匹配片段的偏移值。在一种实施方式中，图14的检测显著偏移模块可以被配置成通过基于在图14的指纹匹配模块中获得的所有偏移值计算直方图来确定大量显著值。图16示出了偏移值的示例直方图。显著偏移值可以是具有显著大量匹配的所选择的偏移值。显著偏移值可以在直方图中显示为尖峰。在一种实施方式中，显著偏移值是具有显著大量匹配的偏移值。尖峰检测可以基于直方图中的自适应阈值；包括高于阈值的尖峰的偏移值可以被标识为显著偏移值。在一些实施方式中，可以合并相邻(例如，在～1s的窗口内)的显著偏移值。

示例低复杂度计算

另外或可替代地，一种实施方式基于较低时间分辨率距离矩阵来计算显著偏移。如下所述计算低时间分辨率距离矩阵。一种实施方式假定正整数N个特征向量(f₁、f₂…f_i…f_N)表示整个歌曲或其他音乐内容起作用。全距离矩阵根据特征向量f(i)来计算，其中i表示帧索引，根据：D(o,i)＝ dist(f(i),f(i+o))，其中o表示偏移值的索引。对于子采样的距离矩阵(低时间分辨率)，简单跳过帧向量的某些帧。例如，D(o，t)＝dist(f(Ki)，f(Ki+o)) 其中K表示整数子采样因子，例如K＝2、3、4…。实现了一种子采样因子包括二(2)的实施方式。

当计算低分辨率距离矩阵时，获得在其处出现重复的显著偏移子集。对距离矩阵的行进行平滑(例如，使用几秒长度的MA滤波器)。该平滑矩阵中的低值与类似于平滑滤波器的长度的音频片段对应。搜索平滑距离矩阵局部得到局部最小值的点以标识显著偏移。实施方式根据下面列举的示例处理步骤迭代地查找局部最小值。

1.查找最小值(例如，产生偏移，以及时间值：o_min，n_m，in) d_min＝min(D(o，i))，其中d_min＝D(o_min，n_m，in)。

2.将偏移值记录为显著偏移。

3.通过设置D(o_min±r_o，n_min±r_n)＝∞以在查找最小值的下一轮的某个范围内排除所查找到的最小值周围的值，其中，r_o＝0，1，...R_n， r_n＝0，1，...，N_n。实现了其中正整数N_n等于帧的数量(例如，矩阵D的列的数量)的实施方式。从而，例如，排除所记录的显著偏移的所有列(时间帧)。

4.从步骤1开始重复，直到达到期望数量的显著偏移。在一种实施方式中用最小数量M_min、最大数量M_max的以及关于色度距离值的阈值 TH定义了显著偏移的数量。获得正整数M_min或更多偏移(例如，M_min＝3)。检查关于色度距离值的条件以确保所查找到的值足够低，多达正整数 M_max(例如，M_max＝10)个偏移。根据全局最小值(例如，在第一迭代中查找到的最小值)确定阈值，例如d_min*1.25。步骤1和步骤4如下述改变如下。

1.查找最小值(产生偏移，以及时间值：o_min，n_m，in)

d_min＝min(D(o，i))，其中d_min＝D(o_min，n_m，in)。

如果获得M_min个偏移，则检查色度距离阈值：如果d_min＜TH则继续步骤2，否则停止。

4.从步骤1开始重复(例如，直到获得M_max个偏移)。

再次参照图1B，在四次(4)迭代1001、1002、1003和1004期间示出了距离矩阵1000，其中所检测到的最小值由黑色十字表示。在每次迭代之后，先前最小值周围的范围在下一次迭代的搜索中被排除。

从而，本发明的示例实施方式实现以低复杂度检测媒体数据中的重复。使用能够从媒体数据提取的一种或更多种特征类型中的第一类型从媒体数据中的偏移值集合中选择偏移值子集。偏移值子集包括基于一个或更多个选择准则从偏移值集合中选择的值。使用一种或更多种特征类型中的第二类型从偏移值子集标识候选种子时间点集合。在该上下文中，第一类型特征对应于较低时间分辨率色度特征，而第二类型特征对应于较高时间分辨率色度特征。如下面部分6.3中所讨论的，实施方式使用较高分辨率色度距离分析来检测候选种子时间点。使用较高时间分辨率色度特征来标识候选种子时间点作为所选择的偏移值子集。这产生了在存储器使用以及计算花费两者上均高效的实现。可以使用一个或更多个计算系统、设备或装置、集成电路装置、和/或媒体播放、再现、渲染或流媒体设备来执行示例处理。可以使用编码或记录在计算机可读存储介质上的指令或软件来控制、配置、编程或引导系统、装置和/或设备。

6.3用于检测候选种子时间点的高分辨率色度距离分析

一旦确定在其处出现媒体数据(如歌曲)中的代表性元素或部分的大量显著偏移值，则这些所选择的偏移值可以用于如下计算特征距离矩阵 (例如，与结构属性、包括和声和旋律的调性、音色、节奏、响度、立体声混合或媒体数据中的相应部分的声源的量)的选择性的行：

D(i,o_k)＝d(f(i),f(i+o_k))。

在此，f(i)表示媒体数据帧i的特征向量，以及d()是用于将两个特性向量进行比较的距离度量。在此，o_k是第k个显著偏移值。可以对于所有 N个媒体帧相对于每个所选择的偏移值o_k进行D()的计算。所选择的偏移值o_k的数量与代表性片段在媒体数据中重复多频繁相关联，并且可能不随着选择覆盖媒体数据的多少(例如，数量N)个媒体帧而变化。从而，根据本文的技术针对所有所选择的偏移值o_k相对于所有N个媒体帧计算 D()的复杂度为O(N)。相比之下，根据其他技术全N×N距离矩阵计算的复杂度将为O(N²)。另外，根据本文中所描述的技术的特征距离矩阵远小于全N×N距离矩阵，需要少很多的存储器空间来执行计算。

在一些实施方式中，用于计算特征距离矩阵的特征可以是但不限于以下项中的一项或更多项：

●表示音色的特征(例如，MFCC)；

●表示旋律的特征(例如，色度图)；

●表示节奏的特征；或

●匹配期间从歌曲得到的指纹。

在一种实施方式中，本文所描述的技术使用一个或更多个适当的距离度量来对特征距离矩阵的所选择的特征进行比较。在一些示例中，如果本文中的系统可以使用指纹来表示所选择的媒体数据帧i(可以是显著偏移点处或附近的帧)，则汉明距离可以用作距离度量来计算所选择的媒体数据帧i以及偏移时间点以外处的媒体数据帧中的相应指纹。

在另一示例中，在一种实施方式中，如果12维色度向量用作特征向量来计算本文中所描述的特征距离矩阵，则特征距离可以如下确定：

$D ({i, o}_{k}) = d (\underline{c} (i), \underline{c} (i + o_{k})) \frac{\frac{\underline{c} (i)}{\max (\underline{c} (i))} - \frac{\underline{c} (i + o_{k})}{\max (\underline{c} (i + o_{k}))}}{\sqrt{12}}$

其中表示帧i的12维色度向量，以及d()是所选择的距离度量。在图17 中示出了所计算的特征距离矩阵(色度距离矩阵)。

6.4计算相似度行

在一种实施方式中，所得到的色度距离(特征距离)值然后可以由图 14的计算相似度行模块使用滤波器比如某个时间长度例如15秒的滑动平均滤波器来平滑。在一种实施方式中，平滑信号的最小距离的位置可以如下查找：

s(o_k)＝argmin(D)(i，o_k))

overi

平滑信号的最小距离的位置的查找与最类似于15秒的另一媒体片段的长度15秒的媒体片段的位置的检测对应。两个所得到的最好匹配片段使用给定的偏移o_k间隔开。位置s可以用于处理的下一级作为场景变化检测的种子。图18示出了相似度矩阵的行的示例色度距离值、平滑距离和所得到的场景变化检测的种子点。

7.使用场景变化检测的精细

在一种实施方式中，媒体数据如歌曲中的位置，在已由特征距离分析如色度距离分析标识为最有可能在具有某些媒体特性的候选代表性片段内部时，可以用作用于场景变化检测的种子时间点。候选代表性片段的媒体特性的示例可以是由候选代表性片段拥有的重复特性，以便该片段被视为歌曲的副歌的候选；重复特性例如可以由上述距离矩阵的选择性计算来确定。

在一种实施方式中，图14的场景变化检测模块可以在本文中的系统中被配置成标识种子时间点附近(例如，在音频中)的两个场景变化：

●与代表性片段的开始对应的种子时间点的左侧的开始场景变化点；

●与代表性片段的结束对应的种子时间点的右侧的结束场景变化点。

8.等级评定

图14的等级评定部件可以给出一些拥有某些媒体特性的候选代表性片段(例如，副歌)作为输入信号，并且可以选择候选代表性片段之一作为信号的输出，被视为代表性片段(例如，所检测的副歌部)。所有候选代表性片段可以由他们的开始场景变化点和结束场景变化点来定义或分隔(例如，作为本文所描述的场景变化检测的结果)。

9.其他应用

本文中所描述的技术可以用于从音乐文件检测副歌段。然而，总体上，本文中所描述的技术在检测任何音频文件中的任何重复片段方面是有用的。

10.示例处理流程

图19A和图19B示出了根据本发明的示例实施方式的示例处理流程。在一种实施方式中，媒体处理系统中的一个或更多个计算装置或部件可以执行这些处理流程中的一个或更多个。

10.1.示例重复检测处理流程—指纹匹配和搜索

图19A图示了使用指纹的示例重复检测处理流程。在块1902处，媒体处理系统从媒体数据(例如，歌曲)提取指纹集合。

在块1904中，媒体处理系统基于指纹集合选择指纹查询序列集合。查询序列集合中的每个单独的指纹查询序列可以包括媒体数据针对开始于查询时间的时间间隔的简化表示。

在块1906中，媒体处理系统对于指纹查询序列集合确定指纹匹配序列集合。如本文中所使用的，匹配序列包括根据基于距离度量的值如汉明距离与指纹查询序列相似的指纹序列。查询序列集合中的每个单独的查询序列可以与指纹匹配序列集合中的零个或更多个指纹匹配序列对应。

在块1908中，媒体处理系统基于查询序列中每个的最好匹配序列的时间位置来标识偏移值集合。

在一种实施方式中，可以通过将媒体数据的数字表示简化成媒体数据的简化维二进制表示来生成本文中所描述的指纹集合。数字表示可以与以下项中的一项或更多项有关：快速傅里叶变换(FFT)、数字傅里叶变换 (DFT)、短时傅里叶变换(STFT)、修正离散余弦变换(MDCT)、修正离散正弦变换(MDST)、正交镜像滤波器(QMF)、复杂正交镜像滤波器(CQMF)、离散小波变换(DWT)或小波系数。

在一种实施方式中，相对于用于检测恶意攻击所需要的鲁棒的指纹，本文中的指纹可以提取简便。

在一种实施方式中，为了针对指纹查询序列集合确定指纹匹配序列集合，媒体处理系统可以在动态构造的指纹数据库中搜索与指纹查询序列匹配的指纹匹配序列。

在一种实施方式中，指纹查询序列开始于特定查询时间，而动态构造的指纹数据库排除在相对于特定查询时间的一个或更多个可配置的时间窗内的一部分或更多部分指纹。

在一种实施方式中，为了基于查询序列集合和匹配序列集合标识偏移值集合，媒体处理系统使用根据查询序列集合和匹配序列集合构造的一个或更多个直方图来确定显著偏移值集合。

在一种实施方式中，媒体处理系统使用低时间分辨率距离矩阵分析以标识显著偏移值集合。当标识显著偏移值集合时，一种实施方式可以执行较高时间分辨率色度距离矩阵分析。

10.2.示例重复检测处理流程—混合方法

图19B图示了使用混合方法的示例重复检测处理流程。在块1912中，媒体处理系统使用能够从媒体数据提取的一种或更多种特征类型中的第一类型(例如，使用本文中所描述的指纹搜索和匹配)在媒体数据中的偏移值集合中定位偏移值子集。偏移值子集包括基于一个或更多个选择准则 (例如，使用一个或更多个维数直方图)从偏移值集合中选择的时间差值。

在块1914中，媒体处理系统使用一种或更多种特征类型中的第二类型(例如，使用特征距离矩阵如色度距离矩阵的选择性行计算)基于偏移值子集来标识候选种子时间点集合。

在一种实施方式中，第一类型的特征对应于较低时间分辨率色度特征，以及第二类型的特征对应于较高时间分辨率色度特征。如上述部分 6.3所讨论的，一种实施方式使用较高分辨率色度距离分析以检测候选种子时间点。较高时间分辨率色度特征用于标识所选择的偏移值子集处的候选种子时间点。这产生在存储器使用以及计算代价上均高效的实现。

在一种实施方式中，从媒体数据提取第一特征类型的一个或更多个第一特征。可以基于一个或更多个第一特征来计算(例如，在指纹搜索和匹配的子处理中)第一重复检测度量的第一距离值(例如，指纹序列的比特值之间的汉明距离)。可以应用第一重复检测度量的第一距离值以定位偏移值子集(例如，在指纹搜索和匹配的子处理中)。

在一种实施方式中，从媒体数据提取第二特征类型的一个或更多个第二特征。可以基于一个或更多个第二特征计算第二重复检测度量的第二距离值(例如，色度距离矩阵的选择性的行中的色度距离)。可以应用第二重复检测度量的第二距离值以标识候选种子时间点集合。

在一种实施方式中，第二类型的特征包括与第一特征类型相同的类型，并且可以关于它们的相关的变换大小、变换类型、窗口大小、窗口形状、频率分辨率或时间分辨率与第一特征类型不同。在第一级中对较低时间分辨率特征进行分析以标识显著偏移集合，然后对所选择的显著偏移 (例如，仅显著偏移)进行较高时间分辨率分析提供了显著计算节约。

在一种实施方式中，第一重复检测度量和第二重复检测度量至少之一与以下项中的一项或更多项的相似度或相异度的度量有关：向量的欧几里得距离、向量范数、均方差、误比特率、基于自相关的度量、汉明距离、相似度或相异度。

在一种实施方式中，第一值和第二值包括一个或更多个归一化值。

在一种实施方式中，本文中的一种或更多种特征类型中至少之一部分地用于形成所述媒体数据的数字表示。例如，媒体数据的数字表示可以包括媒体数据的基于指纹的简化维数二进制表示。

在一种实施方式中，一种或更多种特征类型中至少之一包括捕获结构属性、包括和声和旋律的调性、音色、节奏、响度、立体声混合或与所述媒体数据有关的声源的量的特征的类型。

在一种实施方式中，能够从媒体数据提取(例如，能够获得)的特征用于基于以下项中的一项或更多项提供所述媒体数据的一个或更多个数字表示：色度、色度差、指纹、梅尔频率倒谱系数(MFCC)、基于色度的指纹、节奏模式、能量或其他变型。

在一种实施方式中，能够从媒体数据提取的特征用于提供与以下项中的一项或更多项有关的一个或更多个数字表示：快速傅里叶变换(FFT)、数字傅里叶变换(DFT)、短时傅里叶变换(STFT)、修正离散余弦变换 (MDCT)、修正离散正弦变换(MDST)、正交镜像滤波器(QMF)、复杂正交镜像滤波器(CQMF)、离散小波变换(DWT)或小波系数。

在一种实施方式中，第一特征类型的一个或更多个第一特征以及第二特征类型的一个或更多个第二特征与媒体数据的相同时间间隔有关。

在一种实施方式中，第一特征类型的一个或更多个第一特征用于媒体数据的所有偏移的特征比较，而第二特征类型的一个或更多个第二特征用于媒体数据的某个偏移子集的特征比较。在一种实施方式中，第一特征类型的一个或更多个第一特征形成所述媒体数据针对媒体数据的第一时间间隔的表示，而第二特征类型的一个或更多个第二特征形成媒体数据针对媒体数据的第二不同时间间隔的表示。在一个示例中，媒体数据的第一时间间隔大于媒体数据的第二不同时间间隔。在另一示例中，第一时间间隔覆盖媒体数据的整个时间长度，而第二时间间隔覆盖媒体数据在媒体数据的整个时间长度内的一个或更多个时间部分。

在一种实施方式中，提取第一特征类型的一个或更多个第一特征(例如，指纹)相对于从媒体数据的相同部分提取第二特征类型的一个或更多个第二特征(例如，色度特征)简便。

如本文中所使用的，媒体数据可以包括以下项中的一项或更多项：歌曲、音乐作品、配乐、唱片、诗、视听作品、电影或多媒体表示。媒体数据可以从以下项中的一项或更多项得到：音频文件、媒体数据库记录、网络流应用、媒体小型应用程序、媒体应用、媒体数据比特流、媒体数据容器、无线广播媒体信号、存储媒体、有线信号或卫星信号。

如本文中所使用的，立体声混合可以包括媒体数据的一个或更多个立体声参数。在一种实施方式中，一个或更多个立体声参数至少之一与相干性、通道间互相关(ICC)、通道间声级差(CLD)、通道间相位差(IPD) 或通道预测系数(CPC)有关。

在一种实施方式中，媒体处理系统对某个偏移处所计算的距离值应用一个或更多个滤波器。媒体处理系统基于经滤波的值标识用于场景变化检测的种子时间点集合。

本文中的一个或更多个滤波器可以包括滑动平滑滤波器。在一种实施方式中，多个种子时间点中的至少一个种子时间点与经滤波的值中的局部最小值对应。在一种实施方式中，多个种子时间点中的至少一个种子时间点与经滤波的值中的局部最大值对应。在一种实施方式中，多个种子时间点中的至少一个种子时间点与统计值中的特定中间值对应。

在其中色度特征用于本文中的技术的一些实施方式中，可以使用一个或更多个窗函数来提取色度特征。这些窗函数可以是但不限于音乐激励的、感知激励的等。

如本文中所使用的，能够从媒体数据提取的特征可以与或可以不与 12平均律的调音系统有关。

从而，本发明的实施方式用作以低复杂度检测媒体数据中的重复。使用能够从媒体数据提取的一种或更多种特征类型中的第一类型将偏移时间点子集定位于媒体数据的偏移时间点集合中。偏移时间点子集包括基于一个或更多个选择准则从偏移时间点集合中选择的时间点。使用一种或更多种特征类型中的第二类型从偏移时间点子集中标识候选种子时间点集合。该示例处理可以使用一个或更多计算系统、设备或装置、集成电路装置和/或媒体播放、再现、渲染或流媒体设备来执行。可以使用编码或记录在计算机可读存储介质上的指令或软件来控制、配置、编程或引导系统、装置和/或设备。

11.实现机制—硬件概述

根据一种实施方式，本文中所描述的技术由一个或更多个专用计算装置实现。专用计算装置可以被硬连接以执行技术，或可以包括永久地被编程以执行技术的数字电子器件比如一个或更多个专用集成电路(ASIC) 或现场可编程门阵列(FPGA)，或可以包括被编程成根据固件、存储器、其他存储装置或组合中的程序指令执行技术的一个或更多个通用硬件处理器。这样的专用计算装置还可以将定制硬连接的逻辑、ASIC或FPGA 与定制编程组合以实现这些技术。专用计算装置可以是台式计算机系统、便携式计算机系统、手持装置、网络装置或合并硬连接和/或程序逻辑以实现技术的任何其他装置。

例如，图20是图示了在其上可以实现本发明的实施方式的计算机系统2000的框图。计算机系统2000包括总线2002或其他通信机制用于传送信息，以及与总线2002耦接用于处理信息的硬件处理器2004。硬件处理器2004可以是例如通用微处理器。

计算机系统2000还包括主存储器2006如随机存取存储器(RAM) 或其他动态存储装置，耦接至总线2002用于存储信息以及要由处理器 2004执行的指令。主存储器2006还可以用于存储在要由处理器2004执行的指令的执行期间的临时变量或其他中间信息。这样的指令，当存储在可由处理器2004访问的存储介质中时，将计算机系统2000变成被定制成执行指令中指定的操作的专用机。

计算机系统2000还包括耦接至总线2002的只读存储器(ROM)2008 或其他静态存储装置，用于存储处理器2004的静态信息和指令。存储装置2010如磁盘或光盘被提供，并且耦接至总线2002用于存储信息和指令。

计算机系统2000可以通过总线2002耦接至显示器2012用于向计算机用户显示信息。包括字母数字式以及其他键的输入装置2014耦接至总线2002用于将信息和命令选择传送至处理器2004。另一类型的用户输入装置是光标控制器2016如鼠标、轨迹球或光标方向键用于将方向信息和命令选择传送至处理器2004并且用于控制显示器2012上的光标移动。该输入装置通常具有在两个轴第一轴(例如，x)和第二轴(例如，_y)上的两个自由度，这使得该装置能够在平面中指定位置。计算机系统2000可以用于控制显示系统(例如，图1中的100)。

计算机系统200可以使用定制的硬连接的逻辑、一个或更多个ASIC 或FPGA、固件和/或程序逻辑实现本文中所描述的技术，定制的硬连接的逻辑、一个或更多个ASIC或FPGA、固件和/或程序逻辑结合计算机系统使或编程计算机系统2000成为专用机。根据一种实施方式，响应于处理器2004执行主存储器2006中包括的一个或更多个指令的一个或更多个序列，由计算机系统2000执行本文中的技术。可以将这样的指令从另一存储介质比如存储装置2010读入到主存储器2006中。主存储器2006 中包括的指令序列的执行使处理器2004执行本文中所描述的处理步骤。在替选的实施方式中，硬连接的电路系统可以用于代替软件指令或与软件指令组合。

本文中所使用的术语“存储媒体”指代存储使机器以特定方式操作的数据和/或指令的任何媒体。这样的存储媒体可以包括非易失性媒体和/或易失性媒体。非易失性媒体包括例如光盘或磁盘如存储装置2010。易失性媒体包括动态存储器如主存储器2006。存储媒体的常见形式包括例如软磁盘、软盘、硬盘、固态驱动、磁带或任何其他磁数据存储介质、 CD-ROM、任何其他光数据存储介质、具有孔图案的任何物理介质、RAM、 PROM、EPROM、FLASH-EPROM、NVRAM、任何其他存储器芯片或盒。

存储媒体可以不同于传输媒体但可以连同传输媒体一起使用。传输媒体参与在存储媒体之间传输信息。例如，传输媒体包括同轴电缆、铜线和光纤，包括具有总线2002的电线。传输媒体还可以采用声波或光波形式例如在无线电波和红外数据通信期间生成的这些。

在将一个或更多个指令的一个或更多个序列运送至处理器2004用于执行方面可以涉及各种形式的媒体。例如，指令最初可能被携带在远程计算机的磁盘或固态驱动上。远程计算机可以将指令下载至其动态存储器，并且使用调制解调器在电话线上发送指令。计算机系统2000的本地调制解调器可以接收电话线上的数据，并且使用红外发射器将数据转换成红外信号。红外检测器可以接收红外信号中携带的数据，以及适当的电路系统可以将数据放置在总线2002上。总线2002将数据运送至主存储器2006，处理器2004从主存储器2006检索指令并且执行指令。可选地，由主存储器2006接收的指令可以在由处理器2004执行之前或之后存储在存储装置 2010上。

计算机系统2000还包括耦接至总线2002的通信接口2018。通信接口2018向连接至本地网络2022的网络链接2020提供双向数据通信耦接。例如，通信接口2018可以是集成服务数字网络(ISDN)卡、有线调制解调器、卫星调制解调器或调制解调器以提供到电话线的相应类型的数据通信连接。作为另一示例，通信接口2018可以是局域网(LAN)卡以提供到兼容的LAN的数据通信连接。还可以实现无线链接。在任何这样的实现中，通信接口2018发送和接收携带表示各种信息的数字数据流的电信号、电磁信号或光信号。

网络链接2020通常通过一个或更多个网络向其他数据装置提供数据通信。例如，网络链接2020可以通过本地网络2022向主计算机2024或由互联网服务提供商(ISP)2026操作的数据设备提供连接。ISP2026又通过现在通常称为“互联网”2028的全球分组数据通信网络提供数据通信服务。本地网路2022和互联网2028均使用携带数字数据流的电信号、电磁信号和光信号。通过各种网络的信号以及网络链接2020并且通过通信接口2018的、携带到计算机系统2000的数字数据以及来自计算机系统 2000的数字数据的信号是传输媒体的示例形式。

计算机系统2000可以通过网络、网络链接2020和通信接口2018发送消息和接收数据包括程序代码。在互联网示例中，服务器2030可以通过互联网2028、ISP2026、本地网络2022和通信接口2018发送应用程序所要求的代码。当接收到代码时，所接收的代码可以由处理器2004执行，和/或存储在存储装置2010或其他非易失性存储器上用于后面的执行。

12.等同、扩展、替选以及其他

因而，关于媒体数据中的重复的低复杂度检测描述了本发明的示例实施方式。使用能够从媒体数据提取(例如，能够从媒体数据的分量获得) 的一种或更多种特征类型中的第一类型从媒体数据中的偏移值集合中选择偏移值子集。偏移值子集包括基于一个或更多个选择准则从偏移值集合中选择的值。使用一种或更多种特征类型中的第二类型基于偏移值子集来标识候选种子时间点集合。可以使用一个或更多个计算系统、设备或装置、集成电路装置、和/或媒体播放、再现、渲染或流媒体设备来执行示例处理。可以使用编码或记录在计算机可读存储介质上的指令或软件来控制、配置、编程或引导系统、装置和/或设备。

在前述说明书中，已经参照在实现之间变化的大量具体细节描述了本发明的示例实施方式。从而，本发明的实施方式包括什么的并且由申请人意在包括本发明的实施方式的单个或排他性的指示是由该申请以这样的权利要求给出的包括任何后续校正的具体形式给出的权利要求的集合。本文中关于权利要求中包括的术语的明确地阐述的任何定义应当如权利要求中所使用的来管理这样的术语的意思。从而，权利要求中没有明确记载的限制、元素、属性、特征、优点或性质不应以任何方式限制权利要求的范围。因此，说明书和附图应当以说明性而非限制性含义来考虑。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 媒体数据中的低复杂度重复检测 [P] . 中国专利： CN103999150B . 2016.10.19
2. 用于通过降低复杂度的树搜索检测无线通信网络中的数据的方法及装置 [P] . 中国专利： CN107005504A . 2017-08-01
3. LOW COMPLEXITY REPETITION DETECTION IN MEDIA DATA [P] . 欧洲知识产权局专利： EP2791935B1 . 2016-03-09

机译：媒体数据中的低复杂度重复检测
4. LOW COMPLEXITY REPETITION DETECTION IN MEDIA DATA [P] . 欧洲知识产权局专利： EP2791935A1 . 2014-10-22

机译：媒体数据中的低复杂度重复检测
5. LOW COMPLEXITY REPETITION DETECTION IN MEDIA DATA [P] . 美国专利： US2014330556A1 . 2014-11-06

机译：媒体数据中的低复杂度重复检测