首页> 中国专利> 提取视频和音频信号内容的特征以提供信号的可靠识别

提取视频和音频信号内容的特征以提供信号的可靠识别

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

通过产生在视频内容帧中像素的相应组的特征之间的相异点测量，和通过产生音频分段的低分辨率时频表示，从内容产生可用于识别视频和音频视频内容的签名。通过将散列函数应用于从相异点测量导出的中间值和应用于低分辨率时频表示来产生签名。所产生的签名可以用于多种应用，比如恢复视频和音频内容流之间的同步和识别原始视频和音频内容的副本。尽管存在对内容的有意的和无意的修改，所产生的签名仍可以提供可靠的识别。

著录项

公开/公告号CN101548294A

专利类型发明专利
公开/公告日2009-09-30

原文格式PDF
申请/专利权人杜比实验室特许公司;
展开▼

申请/专利号CN200780044083.2
发明设计人 R·拉达克里希南;C·鲍尔;K·B·特里;B·D·林科;金炯淑;E·吉塞尔;
展开▼

申请日2007-11-29
分类号G06T1/00(20060101);
代理机构中国国际贸易促进委员会专利商标事务所;
代理人党建华
地址美国加利福尼亚
入库时间 2023-12-17 22:44:28

法律信息

法律状态公告日

法律状态信息

法律状态
2019-11-15

未缴年费专利权终止 IPC(主分类):G06T1/00 授权公告日:20120627 终止日期:20181129 申请日:20071129

专利权的终止
2012-06-27

授权

授权
2009-11-25

实质审查的生效

实质审查的生效
2009-09-30

公开

公开

说明书

技术领域

本发明总的来说涉及视频和音频信号的处理，且更具体地说涉及从视频信号和音频信号提取特征以识别信号的处理。在本公开中，术语“视频信号”和“视频内容”是指表示意在用于视觉感知的图像的信号和内容，且术语“音频信号”和“音频内容”是指表示意在用于听觉感知的声音的信号和内容。

背景技术

比如那些尝试检测由视频和音频信号传送的盗版内容或者那些尝试再同步分离的视频和音频信号的应用通常依靠于检查信号内容以识别信号的处理。对于这些应用中的很多来说，重要的是即使那些信号的内容已经被无意地或者有意地修改也能获得信号的可靠识别，以使得仍然能够由人类观察员将修改的内容识别为基本上与原始内容相同。如果在原始信号的内容和修改的信号的内容之间的察觉的差异很小，那么优选地，该识别处理能够从彼此非常类似的原始和修改的信号提取识别特征。

对信号内容的无意识的修改的实例包括在传输信道中和在存储介质上向信号插入或添加噪声。对视频信号的故意的修改的实例包括亮度和颜色修改，比如对比度/亮度调节、伽马校正、亮度直方图均衡化、色彩饱和度调节和用于白平衡的彩色校正，包括几何修改，比如图像裁剪和调整大小、图像旋转和翻转、伸展、斑点去除、模糊、锐化和边缘增强，且包括比如有损压缩的编码技术。对音频信号的故意的修改的实例包括放大、均衡化、动态范围修改、信道上混频、时标修改、频谱成型和有损数据压缩。

发明内容

本发明的目的是提供可用于即使已经由比如如上所述的那些机制修改了信号的内容，也能获得视频和音频信号的可靠识别的识别处理。

该目的由以下将要描述的本发明实现。

通过参考以下说明和附图可以更好地理解本发明的各种特征和其优选实施例，在附图中，类似的参考标号表示几个图中的类似的元件。提出以下说明和附图的内容仅作为实例，且其不应该被理解为表示对本发明的范围的限制。

附图说明

图1是可以用于获得视频和音频信号的可靠识别的系统的示意性框图。

图2是可以用于获得视频信号的可靠识别的系统的示意性框图。

图3是可以用于获得音频信号的可靠识别的系统的示意性框图。

图4A-4C是可以用于产生表示视频内容的两个帧之间的差异的相异点测量的处理的示意性框图。

图5A-5B是在低分辨率图像中的一组中间值的示意性框图。

图6是可以用于产生音频内容的分段的时频表示的处理的示意性框图。

图7是在低分辨率时频表示中的一组中间值的示意性框图。

图8是捕捉用于同步视频/音频流的基准签名和对准信息的装置的示意性框图。

图9是恢复对视频/音频流的同步的装置的示意性框图。

图10是图示视频/音频流中的时间延迟的示意性框图。

图11是管理用于视频或者音频内容的副本的检测的签名数据库的装置的示意性框图。

图12是可以用于实现本发明的各种方面的装置的示意性框图。

具体实施方式

A简介

图1是检查视频/音频信号3的分段3a到3d的内容以获得信号的可靠识别的示例性系统300的示意性框图。视频签名发生器100获得识别视频内容的一组视频签名(SV)199b到199d并且音频签名发生器200获得识别音频内容的一组音频签名(SA)299a到299d。在如图所示的实例中，视频和音频内容的各个签名对应于视频/音频信号的分段。在接下来的几段中进一步讨论该具体的实例，其中视频/音频信号的每个分段传送一帧视频内容和一段音频内容。视频/音频分段、视频帧、音频分段和签名之间的该具体的对应性仅是作为实例呈现的。其他配置是可能的。

图2是视频签名发生器100的示意性框图。相异点测量处理器120检查在视频帧的序列内的两个视频帧1a，1b的内容，并产生表示全部两个帧或者两个帧的一部分之间的相异点的一个或多个测量的中间值。如果每个视频帧的内容由表示离散画面元素或者像素的强度的值的阵列表示，例如，中间值可以是多组像素的强度的平均值或者标准偏差之间的差的阵列。视频签名处理器170将散列函数应用于中间值以产生识别视频帧的内容的视频签名(SV)199b。

图3是音频签名发生器200的示意性框图。时频表示处理器210检查分段序列内的音频分段2b的内容，并产生表示分段中的音频内容的频谱分量的全部或者一部分的频谱值。如果该分段的音频内容由表示离散样本的幅度的值表示，例如，频谱值可以是通过块(block)时域到频域转换产生的时频表示内的一组系数。中间值处理器250检查多组频谱值并从每组中频谱值的强度导出中间值。音频签名处理器270将散列函数应用于该中间值以产生识别该音频分段的内容的音频签名(SA)299b。

B.视频签名发生器

可以以多种方式实现视频签名发生器100的组件。优选的实现产生对几乎没有或没有感知影响的视频内容的修改相对不敏感的签名。如果对视频内容的修改对感知的图像没有重要的作用，那么优选地这些修改也对产生的签名没有重要的作用。在两个视频签名之间的差的某些测量与在从其产生签名的两个内容之间的差的测量相称。以下讨论几个示例性实现。

以下讨论的实现计算表示视频帧之间的相异点的一个或多个测量的中间值，因为相异点测量的使用增加了产生的签名对运动及原始内容中其他变化的灵敏度，但是消除或者减少了对随后的处理的修改(比如改变亮度或者对比度的修改、在不同彩色空间之间转换或者应用彩色校正的修改)的灵敏度。

可以对于视频内容的任何两个帧1a、1b计算中间值。这两个帧可以是帧序列内的相邻的视频帧，或者它们可以由一个或多个插入帧彼此分开。如果两个帧分开指定时间间隔而不是分开指定数目的插入帧，则对于这两个帧计算的中间值通常对由改变视频帧速率的编码处理所引起的修改更有抵抗力。

1.相异点测量处理器

在图4A到4C中图示了相异点测量处理器120的几个示例性实现。参考图4A，组件122a形成来自视频帧1a的一个或多个像素组，且组件124a从这些像素组的每一个提取一个或多个特征，并计算表示每个特征的值R。组件122b形成来自视频帧1b的一个或多个像素组，且组件124b从这些像素组的每一个提取一个或多个特征，并计算表示每个特征的值R。组件126计算表示在两个视频帧1a，1b中对于相应的特征和相应的像素组的值R之间的相异点测量的中间值Q。

a)像素组形成

组件122a和122b可以以基本上可要求的任意方式形成像素组。以下讨论几个选择。如果需要，用于产生视频签名的视频帧中的信息可以仅限于全部图像的一部分以避免由将信箱(letterbox)或者图形添加到图像的边缘或者角的任意处理产生的变化。这可以以多种方式实现，比如通过在特征抽取之前裁剪图像、通过在计算表示提取的特征的值R的阵列之后裁剪它们、或通过裁剪根据值R计算的相异值的阵列。优选地，这通过在特征抽取之前裁剪图像来实现。

对于比如电视的视频应用，适当的裁剪选择图像的中央部分以使得插入在接近图像边缘的视频内容中的任何标识或其它图形对象不影响提取的特征。裁剪还可以消除由于逐行扫描和隔行扫描格式之间的转换和高清晰度(HD)和标准清晰度(SD)格式之间的转换而对图像进行的修改。在下面段落中讨论对于一个具体的HD到SD格式转换的裁剪。

如果具有1080×1920像素分辨率的HD格式的原始视频内容被转换为具有480×640像素分辨率的SD格式，例如，可以裁剪原始图像以选择保留在转换后图像中的原始图像的中央部分。适当的裁剪从原始HD格式图像的左手边缘去除240个像素，且从右手边缘去除240个像素，以获得具有与SD格式图像相同纵横比的具有1080×1440像素分辨率的图像。可以调整裁剪的区域以去除图像的附加区域，可以以如上所述的标识或图形对象修改该附加区域。

还可以下采样像素阵列以减少对当在不同格式之间转换视频帧时可能发生的修改的灵敏度。例如，在电视应用中，可以将图像下采样到120×160像素分辨率，这对于HD和SD格式，以及对于逐行扫描和隔行扫描格式是方便的选择。可以通过检查与视频内容一起传送的参数或者其他元数据以确定以视频帧传送的图像的水平和垂直分辨率，响应于这些分辨率选择因数，和以等于该因数的量下采样图像，来实现该下采样。对于这里讨论的实例，对于裁剪的HD格式图像选择的因数等于9，且对于SD格式图像选择的因数等于4。

例如，假定原始视频信号的内容是HD格式的，具有1080×1920像素分辨率。如上所述，可以将该内容裁剪为具有1080×1440像素分辨率的图像，且然后以因数9将其下采样为120×160像素的分辨率。可以从该低分辨率图像提取特征。进一步假定原始视频信号被转换为具有480×640像素分辨率的SD格式。该转换的图像可以被以因数4下采样到120×160像素的分辨率，这允许从转换的信号提取出与对于原始信号所提取的基本上相同的特征。相同的下采样可用于适应从SD到HD格式的转换和逐行扫描与隔行扫描格式之间的转换。如果使用适当的下采样，特征提取处理和随后的签名产生处理对根据格式之间的转换发生的修改不敏感。

如果视频信号以其中在两个场中布置视频帧的隔行扫描格式传送内容，在提取特征之前其可以被转换为逐行扫描格式。做为选择的，可以通过仅从隔行扫描帧中仅一个场提取特征来实现扫描格式的选择的更大的独立性。例如，可以仅从帧中的第一个场或者仅从帧中的第二个场提取出特征。将忽略在其他场中的视频内容。该处理避免在提取特征之前转换成逐行扫描格式的需要。

在一个实现中，在具有120×160像素分辨率的下采样图像中形成像素组。参考图5A，例如，像素组是大小均匀的且是GX个像素宽和GY个像素高。选择组的水平尺寸GX以使得K·GX＝RH，且选择组的垂直尺寸GY以使得L·GY＝RV，其中RH和RV分别是每个视频帧中图像的水平和垂直尺寸。值的一个适当的选择是GX＝8，GY＝8，K＝15且L＝20。这描述下采样图像中组的15×20的阵列，每个组具有8×8像素的尺寸。

可以通过在具有响应于视频帧中的图像格式而调整的尺寸的原始图像中形成像素组来获得类似的结果。继续上述实例，将HD格式图像裁剪为1080×1440像素的尺寸，且在裁剪的图像中形成具有72×72的尺寸的像素组。这产生像素组的15×20的阵列。对于SD格式的图像，在具有32×32像素的尺寸的原始图像中形成像素组，这产生像素组的15×20的阵列。

图5B中示出大小不均匀的像素组。6×4的较小的像素组阵列构成图像的中央部分。一组较大的像素组包围中央部分中的组。这个类型的布置可以有益地用于这样的视频帧信息：在每个图像的中央部分中的内容在感知上更重要。

像素组可以实质上是任何尺寸或者形状的。例如，图5B所示的图像的中央部分由以较宽的线所绘的矩形包围，其可以构成单个像素组且图像的剩余部分可以构成另一像素组。

优选地，将像素低通滤波以对由作为视频内容修改的结果可能发生的像素组排列中的任意变化所引起的改变降低灵敏度。在像素组形成处理期间可以执行该滤波一次或多次。例如，可以在上述的下采样操作之前，在下采样操作之后立即进行，和/或在像素组的形成之后立即对像素进行低通滤波。应该选择滤波器的尺寸以平衡一方面对于排列的变化的抵抗力和另一方面对于视频内容的变化的灵敏度之间的折中。较大的滤波器增加对于排列的变化的抵抗力。较小的滤波器增加对于视频内容的变化的灵敏度。如果将低通滤波器应用于上述的120×160的下采样图像，经验研究表明可以通过使用所有滤波器抽头系数等于1的3×3二维滤波器来获得好的结果。

以下特征提取的讨论涉及图5A所示的示例性分组。

b)特征提取

组件124a和124b从每个像素组提取一个或多个特征并计算表示每个特征的值R。

如果每个视频帧传送单色图像，可以从表示各个像素强度的数据e提取特征。例如，如果每个视频帧传送包括由红、绿和蓝(RGB)值表示的像素的彩色图像，可以从表示每个红、绿和蓝像素分量的数据e提取单独的特征。做为选择地，可以从表示像素亮度或者辉度(从表示红、绿和蓝分量的数据导出的)的数据e提取出特征。

可以提取的一个特征是平均像素强度。可以根据以下表达式获得表示该特征的值R_AVE：

$> R_{AVE} (k, l) = \frac{1}{GX \cdot GY} Σ_{i = k \cdot GX}^{(k + 1) \cdot GX - 1} Σ_{j = l \cdot GY}^{(l + 1) \cdot GY - 1} e (i, j) for 0 \leq k < K; 0 \leq l < L - - - (1)$ >

其中，R_AVE(k，l)＝像素组(k，l)中的像素的平均强度；

e(i，j)＝组内的像素(i，j)的强度；

GX＝以像素数目表示的像素组的宽度；

GY＝以像素数目表示的像素组的高度；

K＝以组的数目表示的图像的水平分辨率，且

L＝以组的数目表示的图像的垂直分辨率。

可以提取的另一特征是像素强度的标准偏差。做为选择地，可以使用标准偏差的方差或者平方。可以根据以下表达式获得表示标准偏差的值R_SD：

$> R_{SD} (k, l) = \sqrt{\frac{1}{GX \cdot GY} Σ_{i = k \cdot GX}^{(k + 1) \cdot GX - 1} Σ_{j = l \cdot GY}^{(l + 1) \cdot GY - 1} {[e (i, j) - R_{AVE} (k, l)]}^{2}} for 0 \leq k < K; 0 \leq l < L - - - (2)$ >

其中R_SD(k，l)＝像素组(k，l)中的像素强度的标准偏差。

可以提取的另一特征是像素强度的直方图。通过对于在可能强度范围内的每个强度对具有特定的强度的像素的数目计数，可以获得表示该特征的一组值R_HIST。

又一个特征是频谱的幅度和/或相位。通过将二维傅里叶变换应用于像素强度的组可以获得表示频谱的一组值R_SPECTRUM。

没有特定的特征对本发明是关键的，但是，经验结果表明，像素强度的平均值和标准偏差对于许多应用是好的选择。

如果需要，对于后续处理可以按组排列表示提取的特征的值R。例如，根据频率或者相位，由一组值R_SPECTRUM表示的频谱特征可以被组织成组。

此外，可以从计算出的值R提取出特征。例如，可以计算平均强度R_AVE或者频谱值R_SPECTRUM的标准偏差。

c)相异点测量计算

组件126可以以多种方式计算表示相异点测量E的中间值Q。测量的选择在原则上对本发明不是关键的，但是取决于由组件124a和124b提取的特征，某些测量的性能更好。可能需要经验研究来做出适当的选择；然而，已经发现以下将要描述的两个测量在很宽的应用范围内给出好的结果。

一个相异点测量是表示在两个不同帧中相应的像素组的相应特征的值R之间的差异的绝对值。可以根据以下表达式计算该测量：

E(k，l，f₁，f₂)＝|R(k，l，f₁)-R(k，l，f₂)|for　0≤k<K；0≤l<L (3a)

其中E(k，l，f1，f2)＝像素组(k，l)中帧f1和f2之间的相异点；且

R(k，l，x)＝表示帧x中像素组(k，l)的所提取特征的值。

如果所提取的特征由具有两个或多个元素的值表示，例如，表示频谱特征的R_SPECTRUM表示幅度，可以根据表示对于在两个不同帧中相应的组的相应特征的值R中元素之间的差的绝对值之和来计算相异点测量。可以根据以下表达式计算该测量：

$> E (k, l, f_{1}, f_{2}) = \underset{z}{Σ} | R (k, l, z, f_{1}) - R (k, l, z, f_{2}) | for 0 \leq k < K; 0 \leq l < L - - - (3 b)$ >

其中R(k，l，z，x)＝帧x中像素组(k，l)的值R中的元素z。

如果需要，可以根据如下的类似表达式计算帧中两个或多个像素组的相异点的复合测量：

$> E (f_{1}, f_{2}) = \underset{k}{Σ} \underset{l}{Σ} \underset{z}{Σ} | R (k, l, z, f_{1}) - R (k, l, z, f_{2}) | - - - (3 c)$ >

其中E(f1，f2)＝在帧f1和f2之间的相异点的复合测量；且

选择k和l之和的极限来包括所需的组。该特定的实例假定值R具有多于一个元素。如果值仅具有一个元素，省略对z的求和。

另一相异点测量是表示在两个不同帧中相应的像素组的相应特征的值R之间的差的平方。可以根据以下表达式计算该测量：

E(k，l，f₁，f₂)＝(R(k，l，f₁)-R(k，l，f₂))²for 0≤k<K；0≤l<L (4a)

如果提取的特征由具有两个或多个元素的值表示，可以根据表示两个不同帧中相应像素组的相应特征的值R中元素之间的差的平方和计算相异点测量。可以根据以下表达式计算该测量：

$> E (k, l, f_{1}, f_{2}) = \underset{z}{Σ} {(R (k, l, z, f_{1}) - R (k, l, z, f_{2}))}^{2} for 0 \leq k < K; 0 \leq l < L - - - (4 b)$ >

如果需要，可以根据如下表达式计算帧中两个或多个像素组的相异点的复合测量：

$> E (f_{1}, f_{2}) = \underset{k}{Σ} \underset{l}{Σ} \underset{z}{Σ} {(R (k, l, z, f_{1}) - R (k, l, z, f_{2}))}^{2} - - - (4 c)$ >

其中选择k和l之和的限制以包括所需的组。该特定的实例假定值R具有多于一个元素。如果这些值仅具有一个元素，则省略对z求和。

在一个实现中，设置中间值Q等于计算的相异点的测量E。以

下讨论备选方案。

d)备选实现

如果在平均像素强度之间的差仅是用于生成签名的相异点测量，则可以如图4B和4C所示实现相异点测量处理器120。在这些实现中，从视频帧1a和1b提取出像素强度或者平均强度，计算提取的特征之间的相异点测量并且将该相异点测量分成组以用于随后的签名生成。

在图4B和4C所示的示例性实现中，视频内容的帧由离散像素的阵列表示，相异点测量处理器120通过计算在两个视频帧中相应的像素之间的差，获得差图像，每个差图像包括差分元素Δ的阵列。例如，如果每个视频帧传送包括由红、绿和蓝(RGB)值表示的像素的彩色图像，则可以根据在相应的像素的各个红、绿和蓝色值之间的差计算差分元素。优选地，根据从红、绿和蓝值导出的相应像素的亮度或者辉度之间的绝对差计算差分元素。如果每个视频帧传送单色图像，则可以根据相应像素的强度之间的差计算差分元素。

如果需要，差分元素可以仅限于全部图像的一部分以避免由添加信箱或者图形到图像的边缘或者角部的任何处理所产生的变化。这可以通过在计算差分元素之前裁剪图像，或通过在已经计算差分元素的阵列之后裁剪差分元素的阵列来实现。

还可以如上所述地改变差图像的分辨率以用于像素组形成。这可以通过在计算差分元素之前修改视频帧中的数据，或通过在已经计算差分元素之后修改差分元素来进行。

参考如图4C所示的实现，组件123计算在视频帧1a和视频帧1b中的相应的像素值之间的差，且组件125从像素差的绝对值获得一组差分元素Δ。组件127执行裁剪和下采样。裁剪操作通过去除差图像的接近顶部、底部、右侧和左侧边缘的差分元素，而仅保留差图像的中心部分。下采样操作对裁剪的差图像进行下采样以产生具有120×160像素的指定尺寸的差分元素的阵列，而无论输入视频帧的格式如何。该特定的尺寸仅是示例性的。组件128将差分元素Δ形成为组，并计算每个组中差分元素的平均值。如果需要，可以如上所述地组合下采样和组形成操作。

可以以其他次序执行计算差值、下采样、裁剪和形成组的操作。例如，可以通过首先下采样两个视频帧的内容、裁剪两个下采样的图像、形成裁剪的图像的像素组、计算每组中像素的平均强度、以及随后计算两个图像中相应的平均强度之间的差，来计算差分元素Δ。

参考图4C所示的组形成操作128，将差分元素Δ分组到差图像的多个区域中，其中每个区域为GX个元素宽和GY个元素高。通过计算每个区域中元素的平均强度，从差分元素Δ的强度导出中间值Q。这些中间值构成分辨率为K×L个中间值的差图像的低分辨率表示。这类似于上述的如图5A和5B所示的像素组的形成。以下段落中描述的示例性实现使用低分辨率图像，其中的像素以与图5A所示的像素组同样的方式布置。可以根据以下表达式获得中间值：

$> Q (k, l) = \frac{1}{GX \cdot GY} Σ_{i = k \cdot GX}^{(k + 1) \cdot GX - 1} Σ_{j = l \cdot GY}^{(l + 1) \cdot GY - 1} Δ (i, j) for 0 \leq k < K; 0 \leq l < L - - - (5)$ >

其中Q(k，l)＝低分辨率图像中的中间值；

GX＝以元素的数目表示的差分元素组的宽度；

GY＝以元素的数目表示的差分元素组的高度；

K＝该低分辨率图像的水平分辨率；

L＝该低分辨率图像的垂直分辨率；和

Δ(i，j)＝差分元素。

选择组的水平尺寸GX以使得K·GX＝RH，且选择组的垂直尺寸GY以使得L·GY＝RV，其中RH和RV分别是该差图像的水平和垂直分辨率。对于上述在具有120×160分辨率的下采样的差图像中产生元素的示例性实现，用于组的一个适当的尺寸是8×8像素，这提供具有120/8×160/8＝15×20的分辨率的低分辨率图像。通过使用低分辨率中间值Q来产生视频签名而不是使用高分辨率差分元素，所产生的视频签名对改变视频信号内容的细节但是保持平均强度的处理较不敏感。

2.视频签名处理器

在以下段落中描述的视频签名处理器170的实现从中间值Q的K×L的阵列(从如图5A所示的值R的阵列或从如上所述与如图4C所示的处理器结合的差分元素Δ的K×L的阵列获得的)产生视频签名。

视频签名处理器170将散列函数应用于中间值Q的K×L的阵列以产生一组N个散列位。这些散列位构成识别视频帧的内容的视频签名(SV)。优选地，散列函数对中间值的变化相对不敏感但是可能对可以使用的任何散列密钥的变化敏感。不像输出随着甚至其输入的一个位的变化而显著地变化的典型密码散列函数，用于本申请的优选的散列函数提供对于输入中间值的小变化仅发生小变化的输出。这允许产生的视频签名对于视频信号内容的小变化仅略微地变化。

一个适当的散列函数使用一组N个基矩阵来产生一组N个散列位。基矩阵P_i到P_N是随机取值的矩阵元素的K×L阵列。可以根据以下表达式产生每个基矩阵Pn的矩阵元素p_n(k，l)：

p_n(k，l)＝RGN-p_n for 1≤n≤N，0≤k<K，0≤l<L (6)

其中p_n(k，l)＝基矩阵Pn的矩阵元素(k，l)；

RNG＝随机数发生器的输出；且

p_n＝对于每个中间矩阵由RNG产生的数字的均值。发生器RNG产生在范围[0，1]中均匀分布的随机或者伪随机值。可以由散列密钥初始化发生器的初始状态，由此允许更加密码地保证散列函数和产生的视频签名。

通过首先将中间值Q投影到N个基矩阵的每个上获得该组N个散列位，这可以表示为：

$> H_{n} = Σ_{k = 0}^{K - 1} Σ_{l = 0}^{L - 1} Q (k, l) \cdot p_{n} (k, l) for 1 \leq n \leq N$ >

其中H_n＝中间值到基矩阵P_n上的投影。

随后通过比较每个投影与全部投影的中值，并且如果投影等于或者超过阈值则将散列位设置为第一值，和如果投影小于阈值则将散列位设置为第二值来获得散列位。这可以被表示为：

B_n＝sgn(H_n-H) (7)

其中且

H＝全部投影H_n的中值。

C.音频签名发生器

可以以多种方式实现音频签名发生器200的组件。优选的实现产生对几乎没有或没有感知影响的音频内容的修改相对不敏感的签名。如果对音频内容的修改对感知的声音没有重要的作用，那么优选地这些修改也对产生的签名没有重要的作用。两个音频签名之间的差异的某些测量与在产生签名的两个内容之间的差异的测量相称。以下讨论几个适当的实现。

1.时频表示处理器

在由表示离散样本的幅度的值表示音频信号的分段的示例性实现中，时频表示处理器210从通过将时域到频域转换应用到每个分段内音频样本的重叠块的序列而产生的变换系数获得一组频谱值。如果需要，频谱值可以限于音频内容的全部带宽的仅一部分以避免由改变音频内容的频谱形状的任何处理产生的变化。例如，可以通过排除那些由表示最低频率和最高频率谱分量的变换产生的变换系数，或通过在应用变换之前对音频内容进行带通滤波，来获得受限的表示。

在图6中示意性地图示了由时频表示处理器210的示例性实现执行的操作。在该实现中，将音频内容2a的分段划分为T个重叠块BLOCK-1到BLOCK-T的序列。每个分段的长度是LS个样本且每个块的长度是LB个样本。相邻的块的开始之间的偏移是被称为块步长的多个样本ZB。将块变换应用于每个块的样本以产生一组频谱值。图6图示由变换20将一个块BLOCK-2变换为一组频谱值25a的变换操作。在该特定的实现中，在分段2a中的所有T个块已经被转换为各个组的频谱值之后，处理在下一分段2b的块中继续。相邻的分段的开始之间的偏移是被称为分段步长的多个样本ZS。

时频表示的时间分辨率是分段长度、块长度和块步长的函数，这可以被如下表示：

$> T = \frac{(LS - LB)}{ZB} - - - (8)$ >

其中T＝每个分段中的时间分辨率或者块的数目；

LS＝以样本为单位的每个分段的长度；

LB＝以样本为单位的每个块的长度；且

ZB＝块步长。

通常通过块的长度或者用于产生频谱值的变换的长度确定频率分辨率。

在以下讨论的同步视频和音频内容的一个应用中，音频内容被分为等于三个视频帧的长度的分段。对于某些电视应用，三个视频帧跨越的时间间隔大约是100毫秒。如果音频采样速率是48kHz，那么音频分段长度是4,800个样本。选择块长度为256个样本且选择块步长为32个样本。对于该实现，每个音频分段具有T＝142个块；因此，时频表示的时间分辨率等于142。将256点的快速傅里叶变换(FFT)应用于样本的每个块以产生129个频谱值；因此，时频表示的频率分辨率等于129。将分段步长选择为512个样本或者大约10.7毫秒。

2.中间值处理器

中间值处理器250检查频谱值的组并从每个组中的频谱值的强度导出中间值。

在示例性实现中，将频谱值S分组到其中每个区域是GF个频谱值宽和GT个块长的时间-频率区域中。通过计算每个区域中频谱值的平均强度，从频谱值的强度导出中间值Q。这些中间值构成具有K×L个中间值的分辨率的低分辨率时频表示。这在图7中示意性地图示出。可以根据以下表达式获得中间值：

$> Q (k, l) = \frac{1}{GF \cdot GT} Σ_{i = k \cdot GF}^{(k + 1) \cdot GF - 1} Σ_{j = l \cdot GT}^{(l + 1) \cdot GT - 1} S (i, j) for 0 \leq k < K; 0 \leq l < L - - - (9)$ >

其中Q(k，l)＝以低分辨率表示的中间值；

GF＝以值的数目表示的频谱值组的宽度；

GT＝以块的数目表示的频谱值组的长度；

K＝低分辨率表示的频率分辨率；

L＝低分辨率表示的时间分辨率；和

S(i，j)＝频谱值。

选择组的尺寸GF以使得K·GF＝RT，且选择组的尺寸GT以使得L·GT＝RT，其中RF和RT分别是低分辨率表示的频率和时间分辨率。对于上述和以下讨论的示例性实现，组的一个适当的尺寸是GF＝6且GT＝14，这提供129/6×142/14≈20×10个中间值的低分辨率表示。通过使用低分辨率中间值Q而不是高分辨率时频表示来产生音频签名，所产生的音频签名对改变频谱内容的细节但是保留平均频谱级别的处理较不敏感。

可以以其他方式执行计算时频表示和中间值的操作。例如，可以通过减少块长度和转换长度并增加频谱值组的长度GT以获得相同的时间分辨率，来获得具有较低频分辨率的一组频谱值。如果需要，在频谱两端可以改变组的宽度GF。如果高频频谱分量对于产生的签名被认为比较低频分量较不重要，则可以通过对于较高频增加组的宽度来实现该相对的重要性。

3.音频签名处理器

音频签名处理器270将散列函数应用于中间值Q的K×L阵列以产生一组N个散列位。这些散列位构成识别音频分段的内容的音频签名(SA)。这可以以与上述用于视频签名的相同方式进行。

D.应用

上述讨论的视频和音频签名发生器可以用于多种应用，包括恢复在视频和音频内容流之间的丢失的同步的应用和检测视频和音频内容的副本的应用。如下描述用于这些应用的示例性实现。

1.视频/音频同步

通常当记录或者创建视频和音频内容流时将视频和音频内容流彼此同步，但是在随后的处理期间同步可能丢失。例如，在电视广播系统中，通常在将同步的视频和音频流装配在一起用于传输之前，将它们分成两个不同路径以用于信号处理。两个路径中的不同处理延迟可能引起失去同步。可以将流手动地重新同步但是这是令人厌烦的且易于造成人为误差。上述签名发生器可用于自动地恢复同步。例如，在广播系统中，可以在系统中任一点恢复同步，包括在发射器恰好在广播之前或在接收器恰好在收听之前。

类似上述的技术用于在已知要将视频/音频流同步时从视频和音频内容流产生签名。也捕捉指定在这些签名下面的视频和音频内容之间的对准的对准信息。将这些视频和音频签名和对准信息提供给负责恢复两个流之间的同步的“重同步装置”。该重同步装置在已经处理视频和音频内容流且已经失去彼此的同步之后接收这些流，与当前对准信息一起产生新的签名，将新产生的签名和当前对准信息与原始签名和对准信息相关，并调整当前对准直到实现适当的同步。以下更详细地描述进行上述处理的一个方式。

a)示例性实现概述

图8是根据同步的视频和音频流产生视频和音频签名和对准信息的捕捉装置350的示意性框图。在这里同步的视频和音频内容和流被称为基准内容和基准流。从基准流获得的签名和对准信息在这里分别被称为基准签名和基准对准信息。由视频签名发生器100获得视频签名，且将其沿着路径190传递用于随后由重同步装置使用。由音频签名发生器200获得音频签名，且将其沿着路径290传递用于随后由重同步装置使用。可以用于产生视频和音频签名的技术是如上所述的。

捕捉装置350还捕捉可以以多种方式表示的对准信息。例如，可以通过将特定的视频签名与音频签名相关联来暗示对准信息，其中从基本上同时开始的视频内容的帧和音频内容的分段产生该两个签名。在此背景下，如果人类观察者难以辨认哪个内容在另一个之前，则视频和音频内容的开始时间被认为基本上相同。作为另一实例，对准信息可以由与视频和音频签名相关联的时间戳或者时移表示，并指定基础(underlying)视频内容和音频内容的相对时序。如果提供显式的对准信息，则将其沿着路径390传递以用于随后由重同步装置使用。对准信息的具体类型不是关键的。以下讨论的实例与对准信息是隐式的假定一致。可以容易地改变这些实例以说明可能伴随签名的任意显式的时间戳或者时移。

图9是可以用于恢复视频和音频内容流之间的同步的重同步装置400的示意性框图。该重同步装置400包括根据从路径33接收到的视频和音频内容流产生视频和音频签名的视频签名发生器100和音频签名发生器200。这些流的内容可能已经由多种处理有意和无意地修改，且可能不适当地彼此同步。这些视频和音频内容和流在这里被称为当前内容和当前流。从当前流产生的签名在这里被称为当前签名。

内容延迟计算器410比较当前视频签名与基准视频签名，并估计基准视频内容和当前视频内容的被视为相应的帧的基础帧(underlying frame)之间的相对时序差异。内容延迟计算器420比较当前音频签名与基准音频签名，并估计基准音频内容和当前音频内容的被视为相应的分段的基础分段(underlying segment)之间的相对时序差异。对于比如广播的应用，基准签名和对准信息应该在当前流到达之前被传送到内容延迟计算器，以使得足够的信息可以用来实时恢复同步。

相对延迟计算器430使用这些相对时序差异来计算调整任一当前流或者两个当前流以实现适当的同步所需要的延迟量。将表示该延迟的信息沿着路径490传递以由其他设备使用来实现该延迟。例如，假定相对视频时序差异指示基准视频帧超前相应当前视频帧四秒，且相对音频时序差异指示基准音频分段超前相应音频分段五秒。相对延迟计算器430可以对于当前视频流计算延迟量等于一秒以实现适当的同步。

b)内容延迟计算器

如上所述的两个内容延迟计算器比较基准签名和当前签名的序列并估计在基础视频/音频内容之间的相对时序差异。可以以多种方式实现这些计算器。以下段落描述使用汉明距离(Hammingdistance)函数的一个实现。

假定通过施加由符号δ_V表示的处理延迟的信号处理路径从基准视频流获得当前视频流。进一步假定通过施加由符号δ_A表示的处理延迟的信号处理路径从基准音频流获得当前音频流。内容延迟计算器410比较基准视频签名SV_REF和当前视频签名SV_CURR并产生视频处理延迟的估计值ε_V。可以从估计的延迟ε_V获得基准视频流和当前视频流之间的相对时序差异。内容延迟计算器420比较基准音频签名SA_REF和当前音频签名SA_CURR并产生音频处理延迟的估计值ε_A。可以从估计的延迟ε_A获得基准音频流和当前音频流之间的相对时序差异。

在以下段落中描述可以用于估计处理延迟的一个技术。在视频和音频之间没有造成区别，因为可以以同样的方式计算视频处理延迟估计值ε_V和音频处理延迟估计值ε_A。

内容延迟计算器接收两组签名。一组是由{S_REF(i)}表示的基准签名的序列，且第二组是由{S_CURR(i)}表示的当前签名的序列。相关器在两个序列的范围内进行搜索以查找一个窗口，在该窗口中的签名组具有最高相关度的窗口。这可以通过首先计算以下分数来进行：

$> D (m, i) = Σ_{j = 0}^{W - 1} HD [S_{REF} (i + j), S_{CURR} (m + j)] for 1 \leq i \leq F, i - U \leq m \leq i + U - - - (10)$ >

其中D(m，i)＝对于流之间的特定的对准计算的分数；

HD[r，c]＝在签名r和c之间的汉明距离；

F＝在该组基准签名{S_REF(i)}中的签名的数目；

U＝相关器的搜索范围；和

W＝表示为签名数量的相关窗口的长度。汉明距离等于其中两个签名不同的位的位置的数目。

可以从m的值导出估计的处理延迟，其中建立在相关窗口内的基准签名和当前签名之间的最接近匹配。这可以被表示为：

$> ϵ_{i} = \arg \min_{m} [D (m, i)] fori - U \leq m \leq i + U - - - (11)$ >

如果不存在处理延迟，那么ε_i＝i。如果估计的延迟是三个帧或者三个分段，那么ε_i＝i+3。对应于签名S_REF(i)的帧或者分段的相对时序差异是在ε_i和i之间的偏移。对于视频帧i的相对时序差异在这里被表示为dv(i)，且对于音频分段i的相对时序差异在这里被表示为da(i)。

在用于电视的一个实现中，内容延迟计算器410对视频帧使用值W＝10和U＝45，且内容延迟计算器420对音频分段使用值W＝23和U＝47。用于视频和音频延迟计算器的F值分别是在基准流中视频帧和音频分段的数目。

相对延迟计算器430使用视频和音频流的相对时序差异来计算任一当前流或者两个当前流的延迟量以实现适当的同步。这在图10中示意性地图示。示出在基准视频流1中的基准视频帧1b和在基准音频流2中的基准音频分段2b同步。用于视频流1的信号处理81和用于音频流2的信号处理82将不同延迟引入到两个流中。结果，当前视频流31中的当前视频帧1b和当前音频流32中的当前音频分段2b不再同步。当前视频帧1b被延迟了dv且当前音频分段2b被延迟了da。对恢复同步所需要的延迟adj的调节量等于(dv-da)。如果如图所示dv大于da，那么可以通过将音频分段延迟调节量adj来恢复同步。如果dv小于da，那么可以通过将视频帧延迟调节量adj来恢复同步。可以基本上以需要的任意方式延迟流，但是一个方式是在具有足够容量的先进先出(FIFO)缓存器中存储和检索流内容以提供对延迟的调节。

2.副本的检测

即使已经由包括如上所述的处理的多种处理对内容进行了修改，从视频和音频内容产生的签名也可用于识别该内容。即使被修改也能可靠地确定指定的视频内容或者音频内容是否是基准视频内容或者音频内容的副本的能力可用于多种应用。在下面列表中简要地描述几个实例：

·未授权的副本的检测：对等服务器的网络可以促进内容的分布，但是它们还增加检测专有内容的未授权的或者盗版的副本的困难，因为在对等服务器之间可存在内容的许多副本。机构可以通过产生用于可从网络获得的全部内容的签名，并相对于基准签名的数据库检查这些签名，来自动地确定在网络中是否存在任何未授权的副本。

·广播的确认：与广播网络签订合同以分发指定的视频和音频内容的商行可以通过从由广播接收机接收的信号产生签名并将这些签名与指定内容的基准签名比较，来确认满足合同条款。

·接收的识别：提供用于广播网络的标称值的商行可以通过从接收的信号产生签名和将那些签名相对于基准签名进行比较，来识别由接收器接收的内容。

图11是可以用于实现比如那些在先前列表中提到的应用的多种应用的系统的示意性框图。视频签名发生器100和音频签名发生器200根据从路径31接收到的内容的基准视频/音频流来产生基准视频签名和基准音频签名。将该产生的基准视频签名存储在视频签名数据库(VSIG DB)180中，且将产生的基准音频签名存储在音频签名数据库(ASIG DB)280中。可以与可以有助于应用实现的其他信息一起存储基准签名。例如，可以与基础内容本身或者与识别关于内容的信息(比如内容拥有者、内容许可证条目、内容的标题或内容的文字说明)的数据一起存储基准签名。每个基准签名具有数据库检索密钥。可以以要求的任意方式导出该密钥。优选地，该密钥基于或者从基准签名本身导出。

可以相对于由存储在视频和音频数据库中的信息表示的基准内容检查任意指定视频内容或者音频内容的标识。要被检查标识的内容在这里被称为测试内容。可以通过使得视频签名发生器101根据从路径33接收到的测试视频内容来产生测试视频签名，并将测试视频签名传送到视频搜索引擎185，从而检查该测试视频内容的标识。视频搜索引擎185尝试在确切地或紧密匹配测试视频签名的视频签名数据库180中找到基准视频签名。可以通过使得音频签名发生器201根据从路径33接收到的测试音频内容产生测试音频签名，并将该测试音频签名传送到音频搜索引擎285，来检查测试音频内容的标识。音频搜索引擎285尝试在确切地或紧密匹配测试音频签名的音频签名数据库280中找到基准音频签名。

在一个实现中，搜索引擎计算测试签名和存储在数据库中的基准签名之间的汉明距离，并搜索最接近测试视频签名的序列的基准签名的序列。在以上表达式10和11中示出的计算或它们的某些变型可以用于进行搜索。如果在两个签名序列之间的距离小于某阈值，则与测试签名的序列相关联的测试内容被认为是与匹配基准签名的序列相关联的基准内容的确切或修改的副本。经验结果建议使用表示大约两秒内容的签名的序列可以对于多种视频和音频内容获得好的结果。

E.实现

可以以包括用于由计算机或者一些其它装置执行的软件的多种方式实现包括本发明的各种方面的装置，该装置包括更专用的部件，比如连接到类似于在通用计算机中建立的部件的部件的数字信号处理器(DSP)电路。图12是可以用于实现本发明的方面的装置70的示意性框图。处理器72提供计算资源。RAM 73是由处理器72使用用于处理的系统随机存取存储器(RAM)。ROM 74表示用于存储操作装置70需要的且可能用于执行本发明的各种方面的程序的某种形式的永久存储器，比如只读存储器(ROM)。I/O控制75表示通过通信信道76，77接收和发送信号的接口电路。在所示的实施例中，全部主系统部件连接到总线71，其可以表示多于一个物理或者逻辑总线；但是，总线体系结构不是实现本发明必需的。

在由通用计算机系统实现的实施例中，可以包括另外的部件用于接口连接比如键盘或者鼠标和显示器的装置，并用于控制具有比如磁带或者磁盘，或者光学介质的存储介质的存储装置78。该存储介质可以用于记录用于操作系统、实用程序和应用程序的指令的程序，且可以包括实现本发明的各个方面的程序。

能够由以包括离散逻辑部件、集成电路、一个或多个ASIC和/或程序控制的处理器的多种方式实现的部件执行实践本发明的各个方面所需要的功能。其中实现这些部件的方式对本发明来说不重要。

可以通过多种机器可读的介质传送本发明的软件实现，比如从超声波到紫外线频率的全频谱上的基带或者调制的通信路径，或者使用实质上任何记录技术传送信息的存储介质，包括磁带、磁卡或者磁盘，光卡或者光盘，和在包括纸张的介质上的可检测的标记。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 提取视频和音频信号内容的特征以提供信号的可靠识别 [P] . 中国专利： CN101548294B . 2012.06.27
2. 提取视频和音频信号内容的特征以提供信号的可靠识别 [P] . 中国专利： CN101548294A . 2009-09-30
3. Extracting features of videoamp;audio signal content to provide reliable identification of the signals [P] . 欧洲知识产权局专利： EP2642483B1 . 2015-01-07

机译：提取视频和音频信号内容的特征以提供对信号的可靠识别
4. Extracting features of videoamp;audio signal content to provide reliable identification of the signals [P] . 欧洲知识产权局专利： EP2642483A2 . 2013-09-25

机译：提取视频和音频信号内容的特征以提供对信号的可靠识别
5. Extracting features of videoamp;audio signal content to provide reliable identification of the signals [P] . 欧洲知识产权局专利： EP2642483A3 . 2013-10-30

机译：提取视频和音频信号内容的特征以提供对信号的可靠识别