首页> 中国专利> 用于检测视频中的场景边界的由计算机实现的方法

用于检测视频中的场景边界的由计算机实现的方法

摘要

一种由计算机实现的方法,其通过首先从不同种类的视频中提取特征向量来检测视频中的场景边界。然后使用支持向量机将特征向量分类为场景边界。所述支持向量机被训练为与所述视频的所述不同种类无关。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-03-09

    未缴年费专利权终止 IPC(主分类):H04N5/14 授权公告日:20110202 终止日期:20150116 申请日:20080116

    专利权的终止

  • 2011-02-02

    授权

    授权

  • 2008-10-15

    实质审查的生效

    实质审查的生效

  • 2008-08-20

    公开

    公开

说明书

技术领域

本发明涉及检测视频中的场景边界,并且更具体地涉及使用听觉和 视觉特征检测场景边界。

背景技术

在视频(和电影)中,镜头和场景边界提供了对理解、组织和浏览 视频有用的结构。

当快门打开时出现镜头边界,并且当快门关闭时出现另一镜头边界。 因此,镜头是连续的、不中断的帧序列。通常,用于戏剧、动作片、和 情景喜剧的镜头在几秒的级别。

如这里定义的,场景是语义上有意义或内聚的帧序列。场景通常持 续若干分钟。例如,普通的场景包括彼此交谈的演员。(多部)摄像机通 常将场景呈现为若干特写镜头,其中依次示出在倾听或者在发言的每个 演员,并且镜头偶尔将以中距离或远距离在场景中显示所有演员。

检测场景边界有挑战性,这是因为对于不同种类的场景边界,甚至 同一种类中的场景边界也不一定具有任何明显的相似之处。

有剧本和无剧本的视频中的场景边界可以通过低层次(low level)视 觉特征(如图像差异和运动向量)以及听觉特征(audio feature)的分布 上的差异来检测。通常,在特征提取步骤后,需要与设置的阈值进行比 较,参见Jiang等人的“Video segmentation with the support of audio segmentation and classification”,Proc.IEEE ICME,2000;Lu等人的“Video summarization by video structure analysis and graph optimization”,Proc. IEEE ICME,2004;Sundaram等人的“Video scene segmentation using video and audio features”,Proc.IEEE ICME,2000;以及Sundaram等人的“Audio scene segmentation using multiple models,features and time scales,”IEEE ICASSP,2000。所有上述技术是特定种类的。这意味着检测器是针对特 定种类的视频而训练,并且对其他种类将不能起作用。期望提供一种对 所有种类的视频有用的场景检测器。

由于以下多个因素而使得检测语义场景边界具有挑战性,这些因素 包括:缺乏训练数据;难以针对多个种类定义场景边界;缺少刻画并比 较不同特征的性能的系统的方法;以及难以确定手动调谐系统中的阈值。

发明内容

本发明的实施方式提供了一种用于检测种类无关的视频中的场景边 界的方法。该方法提取视觉和听觉特征,该视觉和听觉特征可以用于检 测与视频内容的种类无关的场景边界。

本发明提供了一种种类无关的支持向量机(SVM),用于检测视频中 的场景边界。SVM通过使得能够在不使用显式阈值的情况下自动地组合 及比较从音频和视频流中提取的特征集,而作用于来自不同范围种类的 内容。事实上,使用来自大量不同视频种类的已标注场景边界来生成用 于训练SVM的正样本和负样本。

附图说明

图1是根据本发明一实施方式用于检测视频中的场景边界的方法的 流程图;

图2是根据本发明一实施方式提取听觉特征的示意图;以及

图3是根据本发明一实施方式提取视觉特征的示意图。

具体实施方式

检测场景边界

图1示出了根据本发明的实施方式用于检测种类无关的视频中的场 景边界的方法。该方法的输入是听觉-视觉流101。听觉-视觉流101包括 音频信号(audio signal)102和帧(103)序列形式的视觉信号。从音频 信号102中提取听觉特征111(200),并从视频101的帧103中提取视觉 特征121(300)。将听觉和视觉特征组合在一起以构造特征向量131(130)。 由支持向量机(SVM)140对特征向量进行处理以检测场景边界109。可 以由视频分割、索引和浏览应用使用场景边界。受试者工作曲线(ROC) 136形式的反馈136可以用于测量性能,并基于可用的特征流设计更好的 输入向量。

支持向量机

更具体地说,使用区分性高斯核(Gaussian-kernel)SVM,见Hastie 等人的“The Elements of Statistical Learning:Data Mining,Inference,and Prediction”,Springer,2001年8月,通过引用将其合并于此。SVM是用 于检测场景边界的二元分类器。SVM使用超平面来使属于两个不同类的 数据之间的间隔最大化。

训练

在训练阶段145,利用训练向量135针对场景边界和非场景边界训 练分类器140。即标注(label)训练向量。在一个实施方式中,该标注是 人工进行的。该训练确定了用于分离组合后的特征向量131的最优并且 可能是非线性的决策边界。

一个目标是确定可以在多种视频内容中区分场景边界与非场景边界 的特征。换句话说,场景检测器不是种类相关的。另一个目标是特征向 量131具有相对低的维数。此外,希望特征易于获得并且在计算上高效。

听觉特征

如图2所示,以44.1KHz对音频信号102进行采样,并从20ms音 频帧中提取十二个Mel-频率倒谱系数(MFCC)201(210)。基于MFCC 特征201,将音频信号的每一秒分类为四个语义类之一(220):音乐、语 音、笑声以及静音。注意,可以使用其他语义类。语音可以进一步分类 为男声或女声。为了进行音频分类(220),对高斯混合模型(GMM)进 行最大似然(ML)估计,见Divakaran等人于2006年11月7日提交的 美国专利申请No.11/593897,“Method and System for Video Segmentation”,通过引用将其合并于此。根据音频训练数据估计每个语 义类的GMM。这些语义类有助于检测例如在一些内容中通常伴随场景边 界的小段音乐,或情景喜剧的场景结束时经常出现的笑声。

视觉特征

如图3所示,记录每个帧的帧号301,并且确定哪个帧号对应镜头 边界302,见Lienhart的“Comparison of automatic shot boundary detection algorithms”,SPIE Vol.3656,pp290-301,1998,通过引用将其合并于此。 还可以对视觉特征121在像素级别使用运动向量、图像差异以及颜色直 方图。

针对场景(+)和非场景(-)边界将SVM 140的特征向量131定义 为

Xi={x1,x2,x3,...,x11,x12},

即,特征有十二维。输入向量Xi描述了与视频内的特定时间点t(以秒为 单位)有关的局部信息。注意,在给定帧频时(例如,约每秒30帧), 可以根据帧号直接确定时间。为了进行训练(145),针对场景(+)和随 机产生的非场景(-)确定人工标注的时间点的向量Xi

向量Xi最先的九个元素是语义标注的直方图。接下来的两个元素表 示在特定时间t之前和之后听觉分布的差,并且最后的元素基于视频镜头 边界302。各元素定义如下:

前直方图:变量x1,x2,x3

前直方图表示在持续时间[t-WL,t]的时间窗内,类集合{音乐,语音, 笑声,静音}中的语义标注数量,其中WL是所选的窗大小。将该直方图归 一化为总和为1。我们可以从4D直方图中丢弃一维,因为其可以由其余 的三个直方图值完全确定。

中直方图:变量x4,x5,x6

中直方图变量类似于前直方图,并且表示在持续时间的窗内的语义标注。

后直方图:变量x7,x8,x9

后直方图表示窗内的标注。

巴氏(Bhattacharyya)形状和距离:变量x10,x11

针对窗[t-WL,t]和窗[t,t+WL],确定根据低层次(low level)MFCC估 计出的单高斯模型之间的巴氏形状和马氏(Mahalanobis)距离。巴氏形 状是

Dshape=12ln|Ci+Cj2||Ci|12|Cj|12,并且    (1)

马氏距离是

Dmahal=18(μi-μj)T(Ci+Cj2)-1(μi-μj),---(2)

协方差矩阵Ci和Cj,以及均值μi和μj表示在时间点t之前和之后 MFCC向量的对角协方差和均值。巴氏形状和马氏距离对MFCC分布的 变化敏感。因此,这些特征提供了与视频变化有关的更低层次的提示。

例如,伴随着从男性说话人到女性说话人的变化的场景变化将产生 大的MFCC马氏距离,即使语义直方图显示两个场景都主要包含语音。

平均镜头计数:变量x12

最后的元素是在窗[t-WL,t+WL]内的视频中呈现的镜头边界的平均数 的两倍。

因为使用的是具有平滑带宽的基于核的SVM,其中该带宽沿所有维 都相等,因此确保了向量Xi131的所有变量具有大致相同的方差。WL=14 秒的最优窗长提供了足够的数据来估计巴氏距离和语义直方图。

SVM分类器

SVM是有监督的学习过程,其试图找到使两类数据(场景和非场景) 分离的最大间隔超平面。给定数据点{X0,X1,…,XN}和类标注 {y0,y1,…,yN},yi∈{-1,1},SVM对推广良好的两个类构造决策边界。为此, SVM通常用作复杂的、噪声应用中的分类器。在本发明的情况下,这两 个类是场景(+)和非场景(-)边界。数据点Xi是上述12D向量。用于 构造基于SVM的分类模型的方法是公知的。

SVM的一个优点在于输入向量X可以经由核函数而变换到更高维 的特征空间。数据可以在该空间中由超平面线性可分,该超平面实际上 是原始输入空间中的非线性边界。在本实现中,采用径向基核(radial basis kernel):

K(Xi,Xj)=e-γD2(Xi,Xj)---(3)

此处采用特征向量X131之间的欧氏(Euclidean,L2)距离D,尽 管也可以采用其他的距离函数。将核带宽的值固定为γ=2.0,但是存在可 用的额外训练数据时可以调整该值用于更小的平滑。由于训练样本的数 量有限,因此希望具有平滑边界以解决噪声问题。噪声是以诸如不准确 的听觉或视觉特征之类的各种方式引入的,例如,错误分类的语义标注、 丢失的/错误的镜头边界、流的对准(alignment)、以及不正确的人工标注 边界。

由于难以收集大量场景边界,大多数现有技术尚未关注用于场景检 测的有监督学习。然而,将场景检测问题作为分类问题而提出的优点在 于,由于是通过SVM 140调整决策边界,因此不需要变量的显式阈值。 此外,能够基于特征的各种组合相对于训练数据的性能,快速地对特征 的各种组合进行比较。SVM提供了用于对分离特征进行联合建模的统一 框架。这使得能够根据需要增加特征以适应于多种种类无关的视频内容。

发明效果

本发明的各实施方式提供了基于SVM核的分类器,用于检测广泛的 视频类(如情景喜剧、新闻节目、戏剧、指导视频、音乐视频、以及脱 口秀)中的场景边界。换句话说,本发明的场景检测是种类无关的。

通过检测场景边界,我们可以改进消费电子设备的视频浏览能力, 以使得用户能够更快并且更有效地管理视频内容。因此,用“场景改变” 来表示语义上有意义的改变,该改变在视频和/或音频信号中可以有明显 的表现也可以没有明显的表现。

此外,定义为每几分钟出现“场景改变”,认为这是对视频内容浏览 有用的间隔大小。本发明的工作以人工标注为基础,所以场景改变的操 作定义依赖于在训练视频中定位场景改变的人的观点。在情景喜剧和戏 剧中,场景改变通常对应于拍摄位置的改变或对应于重要新角色的入场。 对于新闻,场景改变对应于新闻情节之间的边界。对于脱口秀,场景改 变对应于从一个或一群嘉宾到另一个或另一群嘉宾的改变。对于其他种 类的视频有类似的对应。

尽管已经以优选实施方式为例描述了本发明,但是应理解的是,可 以在本发明的精神和范围内做出各种其他的改变和修改。因此,附加的 权利要求的目的在于涵盖落入本发明的真实精神和范围内的所有这样的 变型和修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号