首页> 中国专利> 用于对存储于存储媒体之上的信息信号进行再现的装置

用于对存储于存储媒体之上的信息信号进行再现的装置

摘要

用于对存储在第一存储媒体(4)上的信息信号进行再现的一种装置。该装置包括用于读出来自第一存储媒体的信息信号的读出单元(2),用于将所述信息信号提供给一个显示单元的输出单元(6),以及用于接收使用户能访问所述信息信号的命令的用户可控输入单元(8)。用户可控输入单元适用于在一个时刻接收第一命令。所述装置还包括一个单元(10),其用于响应所述第一命令,控制读出装置开始读出在所述信息信号的第二位置的来自所述存储媒体的信息信号;在所述第二位置处的信息信号具有显示出与接收所述第一命令的所述时刻读出的第一位置上的信息信号的特征或所述时刻之前读出的信息信号的特征相似的特征。

著录项

  • 公开/公告号CN1394342A

    专利类型发明专利

  • 公开/公告日2003-01-29

    原文格式PDF

  • 申请/专利权人 皇家菲利浦电子有限公司;

    申请/专利号CN01803465.9

  • 发明设计人 M·巴比里;

    申请日2001-09-05

  • 分类号G11B27/10;H04N5/93;G06F17/30;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人王勇

  • 地址 荷兰艾恩德霍芬

  • 入库时间 2023-12-17 14:36:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-28

    未缴年费专利权终止 IPC(主分类):G11B27/10 授权公告日:20080604 终止日期:20170905 申请日:20010905

    专利权的终止

  • 2008-06-04

    授权

    授权

  • 2003-12-17

    实质审查的生效

    实质审查的生效

  • 2003-01-29

    公开

    公开

说明书

本发明涉及一种装置,其用于对存储在第一存储媒体上的信息信号进行再现,所述装置包括:

—读出装置,用于读出来自第一存储媒体的信息信号,

—输出装置,用于将信息信号提供给一个显示单元,

—用户可控输入装置,用于接收使用户可以访问所述信息信号的命令。

本发明还涉及一种方法,其用于对存储在记录媒体上的、存储在计算机程序内的以及存储在有形媒体上的信息信号、以及载有所述计算机程序的信号进行再现。

以往,以利用基本VHS磁带功能:播放、快进和快速倒带的线性方式,对视频节目进行观看和访问。

基于硬盘的录像机正迅速出现在市场上。它们能显著提高所存储的信息量,同时也可随机对其进行访问。像快进和快速倒带这样的传统的VCR功能不能利用这一特性,也不能帮助用户迅速浏览视频内容。

当前的趋势是在提供音频视频信息的同时,还提供一个内容描述(即将来的国际标准MPEG-7,用于为多媒体内容创建一组标准的描述符)。必须以这样一种方式使用这种描述,以便使家庭用户能够在所记录的节目的若干小时之内,快速有效地进行搜索。主要的问题是用户系统的交互作用。但是,便于使用和凭直觉操作的工具(intuitivetools)都局限在执行基于键盘的搜索。

到目前为止,快进和快速倒带还是访问和浏览记录在磁带或盘形媒体上的视频资料的最通用的便于使用的工具。但是,由于能存储在家用设备内的多媒体数据的迅猛增长,使它们显得越来越不合适了。

本发明的一个目的是提供另一种便于使用和凭直觉操作的工具,这种工具适合于在视频资料内进行快速有效的搜索,其中所述视频资料例如是几个小时的记录节目或是具有象图片或幻灯节目这样的图像的数据库。

依据本发明的一种装置的特征在于:用户可控制输入装置适于在片刻后接收第一指令,所述装置还包括用于控制所述读出装置开始读出的一个装置,所述开始读出是从所述信息信号内的第二位置处开始读出来自存储媒体的信息信号;在所述第二位置处的信息信号,显示出与接收所述第一指令的所述时刻所读出的、第一位置处的信息相似,或是与在所述时刻之前读出的信息信号的一部分相似。

本发明是基于对以下情况的认识而作出的。许多节目,例如是新闻节目、脱口秀、天气预报,都是非常频繁地播出的。在这类节目中,图像背景几乎是一样的。此外,在一个节目中,都是同一个人进行表演。在新闻节目中,一般都是在改换一格块新闻时,才显示新闻播音员。通过搜索其中出现了新闻播音员的图像,从而有可能跳转到下一格块新闻。这一特征使得用户能从视频流内的一个图像跳转到下一个(前一个)“相似”的图像。在本发明的一个最佳实施例中,相似性的标准(对两个图像间的相似等级的评估),可以依据从视频信号中提取出的低级特征(像颜色、结构、形状以及边缘)或是辅助信息,所述辅助信息例如可以是人工生成的或是半自动生成的高级描述。跳转到下一个(前一个)相似图像这一功能性与图像的比较方式无关,也与所使用的相似性的概念无关。在多媒体检索领域,基于内容的图像检索是众所周知的技术。本发明采用其结果,并给予用户一个有力的、凭直觉操作的、非常容易使用的工具,用于浏览视频数据。本发明的一个目的是允许依据所述视频内容而指向视频数据的访问。在正常播放期间,或是通过使用另一种访问视频内容的方式,例如是一个关键帧浏览器,所述用户暗中将当前图像选作查询图像,系统执行检索相似图像所需的操作,该系统仅仅选择了具有是“下一个(前一个)”这种进一步的约束的一个结果,最后,跳转到视频流内的相应位置上。可以利用两个按钮来实现这种功能,其中每个搜索方向一个。用这种方式,用户跳到节目的感兴趣部分所必须执行的操作,就是按一个按钮。因此,本发明特别适合于支持终端用户,对用户数字视频记录器内的视频资料进行浏览。

参照附图,通过参照附图的三个实施例说明本发明的这些以及其它方面更加明显。

现在,通过参照附图通过举例来更详细地说明本发明的实施例。这些附图中,

图1显示了依据本发明的一个装置的实施例;

图2显示了为能够执行跳转到下一个相似图像这一功能要采取的步骤。

图3说明了利用8种不同颜色的可视物所执行的提取过程。

图4显示了依据本发明的一种装置的另一个实施例。

图1显示了依据本发明的一个装置的实施例。该装置包括一个读出单元2,其用于读出存储于存储媒体4上的一个信息信号。该装置可具有从视频记录器或机顶盒所知道的功能性,它们都包含一个记录媒体。信息信号可以是存储于预先记录的记录载体(像CD或磁带)或是记录设备上的一个TV信号,所述记录设备例如可以是硬盘驱动器。信息信号可以是能显示于显示屏的任意类型的信息。在一个最佳实施例中,信息信号是包含一个图像序列的视频信号。但是本发明可用于对任意类型的图像集合或是幻灯节目集合进行浏览,所述图像集合例如可以是存储在记录媒体上的图片。存储媒体可以是以硬盘驱动器、可更换存储媒体或是固态存储器的形式,其中所述可更换存储媒体例如可以是光盘(像DVD或CD)。但是,也可以使用能够存储大量信息的任何其它合适的存储媒体。将从存储媒体中读出的信息信号提供给输出单元6,该输出单元6用于将该信息提供给未示出的一个显示单元。可以将该显示单元组合到该装置内。

该装置还包括一个用户可控输入单元8,其用于接收使用户能够访问并观看所存储的信息信号的指令。用户可控输入单元最好是以一个遥控器的形式。但是,也可以利用语音控制。以遥控器形式的一个可控输入单元,最好包括用于产生“跳到下一个相似图像”的指令的一个键,以及用于产生“跳到前一个相似图像”的指令的一个键。这些指令被提供给控制单元10。将控制单元设置为对读出单元2进行控制。当读出单元处于正常播放模式时,依赖于到下一个相似图像的跳转,控制单元适用于终止从记录媒体上读出信息信号和跳转到具有与当接收到跳转到下一个相似图像命令时所读出的图像相似的视频描述符的下一个图像。下面,将非常详细地说明确定什么图像是相似图像以及确定什么图像是下一个或前一个相似图像的方法。可以利用图像的颜色信息来规定一个图像的可视描述符。但是,也可以利用其它可视描述符,例如是符合MPEG-7标准的内容描述。

该装置还包括一个搜索单元14,其用于找到下一个/前一个相似图像。在接收到“跳到下一个/前一个”指令之后,搜索单元将首先确定在发出所述命令时刻所读出的信息信号的可视描述符。在第一实施例中,搜索单元通过读出与从数据库中读出的信息信号相对应的可视描述符,确定对于读出单元2读出的信息信号的可视描述符。数据库可以与所述信息信号一起存储于存储媒体4上。但是,数据库可以存储在搜索单元能够访问的每个适当的存储媒体上。例如,数据库可以存储在通过互联网连接可对其进行访问的一个服务器上。数据库包括有关信息信号内的多个图像的信息,这些信息具有相似的可视描述符,并具有这些图像在所述信息信号内的位置。例如,如果信息信号是一个记录好的视频节目,则数据库包括一个表,在这个表中,所述视频节目内的每一个场景是一个记录。此外,每个记录具有到该视频节目内的下一个相似的可视描述符(读出图像)的指针,以及到所述视频节目内的前一个可视描述符的一个指针。这样,当接收到“跳到下一个/前一个”的指令时,搜索单元读出与当前所读的场景相应的记录,并将下一个/前一个图像的位置提供给读出单元2。读出单元开始读出由搜索单元14所提供的位置处的信息信号。

可通过任何适当的连接,例如是电话线或电缆,从服务提供者处得到所述数据库。也可以在将信息信号记录到记录媒体上的同时,在所述装置中产生所述数据库。因此,所述装置包括未示出的一个提取单元。在将所述信息信号记录到记录媒体上的期间,将信息信号提供提取单元。提取单元为该信息信号,例如是为每一个场景,产生一个可视参数。可视描述符将被存储在记录媒体上的一个数据库内。所述记录媒体并不一定与存储有信息信号的记录媒体相同。在下文中,我们将会对提取可视描述符的方法进行说明。此外,装置包括一个单元,其用于确定对于每个场景,究竟哪个图像或场景将被看作是下一个以及前一个相似图像。所述图像的位置将为存储在数据库内的相应单元内。以下,还要详细说明确定所述图像的方法。

数据库可以以链表的形式,在链表中,每个入口都包括到所述信息信号内的下一个以及/或前一个位置的一个指针。但是,数据库的入口可以包括有关在所述位置上的内容的信息,一个位置可以是诸如像一个场景这样的一部分信息信号的信号图像。响应指令“跳到相似图像”,搜索单元在数据库内搜索下一个位置。可以以几种适当的方式,构成内容表目类型的数据库。数据库可以包括几个列表。每个列表都与一个定义的特征相关。具有相同特征的信息信号部分的多个位置被放置于同一个列表内,且最好能按照它们在所述信息信号内的位置而顺序存储。现在,可以通过搜索列表和与接收到所述指令时刻的读出位置相应的所述列表的表目,实现指令“跳到下一个”。通过取得所述列表内的下一个入口,可控制读出单元读出与所述下一个入口相应的位置上的信息信号。

在数据库的另一个实施例中,数据库内的每一个入口都与所述信息信号内的一个位置相对应。每次接收到指令“跳到下一个”时,就再存储一次内容表目。入口的顺序是由与接收指令时刻的读出位置相对应的入口相似的程度来确定。这一实施例使得用户能跳转到最相似的信息信号部分。

图4显示了本发明装置的一个实施例,它适合于在包含一个图像序列的一个信息信号上跳转,所述图像序列例如可以是一个视频节目。最好是,所述信息信号是以一个MPEG视频信号的形式。在这个实施例中,搜索单元具有一个输入端,用于接收来自读出单元2的信息信号。在接收到“跳到下一个/前一个相似图像”的指令之后,搜索单元将首先确定当前所读出的信息信号的可视描述符。之后,读出单元2将处于搜索模式。在这种模式中,在信息信号上执行的读出要快于普通模式。从记录媒体中,可以读出全部信息信号,也可以仅仅读出一部分信息信号,例如仅仅是MPEG信号中的I帧。所读出的信号被提供给搜索单元14,搜索单元从所提供的信号中提取出可视描述符,并分析所提取出的可视描述符是否与接收指令时刻所读出的信息信号的可视描述符相似。一旦找到相似的描述符,则读出单元2将返回正常模式。

跳到下一个相似图像的功能性还可被用于几种有用的任务中。在哪里可以使用它的几个例子的分类如下。

—当广播公司使用一个静态图像(例如全屏频道标志),以便能区分开该节目与商业广告的开始(结束)时,则可以利用它,跳过商业广告中断。

—在一个新闻节目中,利用播音员(anchor person)图像跳转到下一格块新闻也是非常有用的。通常,所播出的新闻节目都有副标题,因此我们可以假定有非常详细的、非常精确的有关它们的信息。在这种假设下,对它们好像更好使用基于关键字的搜索,而不是跳到下一个(前一个)相似图像这一功能性。无论如何,这种工具允许从一段新闻跳到下一(前一)段新闻,而不需要用户读组织信息。

—允许跳到天气预报或体育新闻或具有固定标题的一个节目内的一个特定部分。

—也可用于跳到一个节目的开始或结尾,该节目具有它自己的固定的开头说明(fixed credit)或结束标题。

—作为视频剪辑(video clips)的音乐节目现在是相当普通的。跳转到下一个(前一个)相似图像这一功能性,可用于从一个视频剪辑跳到另一个视频剪辑。

—许多文献片都有关于不同的主题的特定部分,它们都以特殊的标识开始。用户可以不需要花费快进所耗费的时间,而直接跳到这个显示下一个主题的标识。

正像最后两个例子那样,可以在具有以下结构(相同的字母与相似的帧相对应)的每一个节目中,利用跳到下一个/前一个相似图像的按纽:AAAAAAAAbbbbbbbbbAAAccccccAAAdddAAAAeeeeeeeeeeeeeeAAAAAAAAAAAA......在帧之间进行跳转。在新闻节目中,一帧与正在朗读一条新闻的播音员(anchorperson)相对应。在文件片中,这些帧与男演员(或女演员)介绍的一个主题的一个场景相对应,且在这些帧之间交错排列有文献条目。在TV演出中几乎也是这样,在这样的一帧内,一个男演员(女演员)介绍将要出现的事件或将要出现的来宾。正如在演出中那样,男演员(女演员)通常对音乐视频剪辑进行介绍。的确,这种结构在普通的广播电视节目中非常通用。

似乎是,通过将所述视频构建到场景内和仅仅通过使用跳到下一个场景的按钮都可以达到同样的结果。由于依据本发明的浏览功能允许直接跳转到下一个相似的场景,而不仅仅是跳转到下一个场景或关键帧,因而它与对视频执行预构建的更传统的分级方式不同。跳转到下一个(前一个)相似图像的功能,可用于视频导航的目的,还可用于对图像或幻灯片进行浏览。

当视频节目的预告(trailer)位于一个节目的开始部分时,它可能非常有用,当它表现为商业广告时,同样非常有用。在前一种情况下,一旦节目被广播并被记录,则用户可以从这些节目预告中选取一个图像,并跳转到该节目内的同一个图像处。利用这种方法,用户能够从与所述图像相应的一个位置处,开始观看视频节目。在后一种情况下(即新闻节目内的标题),用户可以利用从节目预告中选出的一个图像,从而跳转到该节目内的感兴趣部分。在这种情况下,节目预告可被看作是节目的内容表目。

如果我们能使用户选择某些图像作为最喜爱的图像,则用于跳转到下一个/前一个相似图像的图像可以以这些图像为基础。用户可以不使用视频流的图像部分,而是在一组最喜欢的图像之间进行选择。这种所谓的最喜爱的图像列表,例如允许以下方案:

—用户观看一个新闻节目,他发现他最喜欢的一个摇滚乐团已经制作了一个新的视频剪辑。新闻节目仅仅包含了一分钟的该视频预览。用户将这个重要的视频图像存储在他最喜爱的图像列表内,并记录了几个小时的视频剪辑,这些视频剪辑表明将要播放的所述新的视频剪辑。第二天,利用先前存储的图像,他能够在记录材料中试图找到整个视频剪辑。

—用户正在观看一个新闻节目,他了解到,在下午Hakkinen发生了非常严重的Mc Laren F1赛车事故。由于他那会儿没有时间,所以他记录了整个比赛,但并不想观看。现在,他可以利用存储在他最喜爱的图像列表内的、来自新闻节目的事故图像,跳转到发生撞车的片段上。

跳转到下一个(前一个)相似图像的功能,需要与视频序列的每个图像,都与下一个(前一个)最相似的图像相关。两个连续帧通常都非常相似。在执行跳到下一个(前一个)相似图像时,必须抛开这些帧。一个办法是在一组连续的相似帧内仅仅考虑一帧。这等价于将一个视频分割为若干小片段,并为每个小片段选择一个典型的静止图像(关键帧),之后,仅仅在这些关键帧之间寻找相似性。

需要注意的是:跳转到下一个(前一个)相似图像的功能,与获得描述符的方式无关,与相似性的测量方式无关。

在一个最佳实施例中,从每一个关键帧中,自动提取出一个可视描述符。如果两个关键帧的可视描述符之间的距离低于一个预定阈值,则认为这两个关键帧相似。跳转到下一个(前一个)相似图像的功能,不仅仅考虑了相似性,还考虑了这些帧之间的相对位置,这是因为它必须只检索出一个下一个(前一个)相似图像。图2显示了该最佳实施例所执行的步骤。

当用户按动跳转到下一个相似图像的按钮时,系统检索下一个小片段的描述符,并执行两个滤除操作。首先,它对发出询问的关键帧的可视描述符与下一个(前一个)关键帧的描述符进行比较。与发出询问的关键帧的描述符的距离大于一个固定阈值的关键帧都被舍弃。第二滤除操作是依据剩余的关键帧在特征空间内与所询问的关键帧的距离,从而将它们至少分为两个群集。这两个群集是通过根据它们的相似性对图像进行分类,以及通过考虑它们与所询问的关键帧之间的顺序差而得到的。当这些差中的一个超过某个阈值时,则所有这些顺序图像都被放入一个单独的群集内。按照先后顺序,对与所询问的关键帧最近的图像群集进行存储,第一帧就是与所述下一个相似图像相应的那个。

以下,将对有关可能使用的可视描述符进行详细说明。

当前的图形匹配和图像理解技术还远远不能实现利用语义术语来解释可视内容的目的。这样,就有必要依赖低级可视特征。颜色、结构、形状和运动是最常用的感觉可视特征。已证明,颜色信息对遮蔽、图像大小和方向是健全的。结构描述符对于对相似的结构图案进行分类是非常强大的,但是它们对于处理自然场景内的不相似区域不太有效。同样,还可以使用外形描述符。由于这些描述符需要对图像进行分割,而这又需要大量的计算能力,因此,当前,它们对于用户电子产品来说,还过于昂贵。此外,当前可行的图像分割技术对于普通的现实世界的图像来说,还不够健全。

人类对颜色的感知是一个复杂的过程。当处理可视数据和颜色表示时,采取了几种简化的设想。在像素这一级别上处理颜色特征,像素级别意味着对一种颜色的感知不受周围颜色的影响。此外,观看条件,例如是周围的光线、观看者的距离以及显示器的品质不予考虑。首先,给出可视物的一个定义。可视物I是一个完整的图像,或是表现为颜色空间CS内的一组像素值的图像的任意形状区域(矩形或不规则形状)。

以下段落展现了对感觉可视特征的定量表示进行编码的一组描述符。同时,还展现了提取程序以及与之相关的相似性匹配标准。

彩色直方图是我们非常熟悉的一种描述可视物的低级颜色特征的方法。它可以表现为三种独立的颜色分布,或是表现为一个彩色信道内的一个分布情况。对于彩色空间CS内的一个给定的可视物I,将彩色直方图定义为离散,这样,存在n个不同的颜色。一个彩色直方图H(I)是一个矢量<H1、H2......、Hn>,其中每个成分Hj都包括颜色Cj的像素在可视物I内的百分比。

彩色直方图是相当有效的彩色内容表目示法。好的方面是它们的计算非常有效。此外,彩色直方图对源于相机旋转、放大、分辨率的改变以及局部遮蔽等引起的变化非常迟钝。但是,它们对光条件非常敏感,并会由于彩色空间量化,而在表示颜色内容时出现问题。量化必须足够精细,从而使得感觉不同的颜色不在同一个量化级内。这种思维可以应用于出现在以下部分内的所有基于直方图的描述符。

可通过为可视物内的每个像素值计算量化值,并逐步增加直方图内的相应格块,从而提取出一个彩色直方图。之后,可以依据可视物的大小,使这些格块内的像素数目归一化。如果处理具有相同维数的可视物,则可以省略着最后一步。应当注意,所述提取处理需要一个线性时间。

可以利用彩色直方图,使用不同的距离度量来确定色彩相似性。它们会产生关于有效性和计算复杂度的不同的检索特性。再加上对色彩空间的选择和色彩量化的选择、以及相似性匹配标准的选择,这是实现可视检索技术中的非常重要的一个方面。

用于彩色直方图的三种常用的相似性度量是L1距离、欧几里德或L2距离以及平方距离。分别令H(Iq)和H(It)为询问和目标直方图,则L1距离定义如下: >>>D>1>>=>>Σ>>i>=>1>>n>>|>>H>i>>>(>>I>q>>)>>->>H>i>>>(>>I>t>>)>>|>->->->->>(>2.1>)>>>s>

欧几里德距离或L2距离定义如下: >>>D>2>>=>>>Σ>>i>=>1>>n>>>(>>H>i>>>(>>I>q>>)>>->>H>i>>>(>>i>t>>)>>)> >->->->->>(>2.2>)>>>s>

在这些定义中,对各个颜色斗(colour buckets)之间的差进行均匀加权。L1距离和L2距离都忽略了对相似的,但不是同一的直方图组成部分做比较。例如一个深红色图像与一个红色图像之间的不相似性就好像与一个兰色图像的不相似性一样。通过在距离计算中使用直方图组成部分的相似性的度量,有可能改善直方图的匹配。

利用二次方距离来解决这个问题,其定义如下:

D3=(Hi(Iq)-Hi(It))TW(Hi(Iq)-Hi(It))                   (2.3)其中W=[aij]以及aij表示具有下标i和j的颜色的感觉上的相似性。这种度量比较了所有的直方图组成部分,并利用两两加权系数,对内部组成部分的距离进行加权。利用aij=1-dij而得出对于互相关aij的一个适当的值,其中dij是下标为i和j的颜色之间的归一化距离,这个归一化是对于该颜色空间内两个颜色之间的最大距离而实现的。由于二次方距离对所有组成部分之间的交叉相似性进行了计算,因此它要比L1和L2距离在计算上更昂贵。

当使用了MPEG-2标准中所采用的压缩算法时,有可能以很低成本,仅仅利用一个局部译码,就能从视频流中提取出被称为DC-图像的帧的缩小版(缩小了64倍)。它们是通过仅仅考虑一个全尺寸帧的8×8的数据块的二维离散余弦变换的DC系数,从而得到的。由于DC图像是帧的缩小版或是块分解版(block-resolution),因而可以假设它们表示同一内容。出于检索关键帧的目的,对于I帧有可能从可用的DC图像中以低成本在数字视频流中直接提取出可视描述符。在MPEG数据流中,可以将一个I帧看作一个关键帧。为简化它们的实施过程,设计一个提取处理,使得所得到的提取处理就像是输入了一个特定颜色空间的一个像素值阵列。还有可能利用场景变换算法将它们结合在一起,并在将MPEG-2解码限制在最低需求的情况下,对描述符进行计算。

彩色直方图描述符既可用于YCbCr又可用于HSV颜色空间。YCbCr颜色空间最好就是它在MPEG-2标准中所使用的格式,这样,直接从视频流提取出的颜色信息就不再需要进一步的变换。此外,即便不是严格意义的感觉均匀,但从这一点来看,它要好于用于在用户界面内显示关键帧的RGB彩色空间。

接下来,对可能使用的YCbCr彩色空间的三种不同颜色的量化进行定义。应当注意,其它量化也同样适用。

—将Y、Cb和Cr彩色信道分别线性量化为16、4以及4个量化级。所得到的描述符可被看作是单独—个256个格块的可变直方图。

—将Y、Cb和Cr彩色信道分别线性量化为16、8以及8个量化级。所得到的描述符可被看作是单独一个1024个格块的可变直方图。

—将Y、Cb和Cr彩色信道分别线性量化为16、16以及16个量化级。所得到的描述符可被看作是单独一个4096个格块的可变直方图。

由于HSV彩色空间近似感觉均匀,所以通过定义一个适当的量化,可以获取一个紧凑、完整的颜色集合,因而它同样也是适用的。利用以下等式[36],可以实现从RGB到HSV的转换:

ν=max(r,g,b) >>s>=>>>v>->min>>(>r>,>g>,>b>)>>>v>>>s>其中(r,g,b)是RGB空间内的一点,(h,s,v)是HSV空间内的相应的一点,当max(r,g,b)≠min(r,g,b)时,(r′,g′,b′)定义如下: > >r>′>>=>>>v>->r>>>v>->min>>(>r>,>g>,>b>)>>>>>s> > >g>′>>=>>>v>->g>>>v>->min>>(>r>,>g>,>b>)>>>>>s> > >b>′>>=>>>v>->b>>>v>->min>>(>r>,>g>,>b>)>>>>>s>对于r,g,b∈[0,1],变换给出了h,s,v∈[0,1]。

对计算一个离散彩色直方图所需的彩色空间量化进行设计,以便产生166个颜色[5,7,8,19,23]的紧凑集合。我们坚信,色彩是感官上非常重要的一个特征,对它使用了最精细的量化。按20度的步长,将圆柱状的HSV彩色空间的色彩环分开。以这种方式,三基色以及黄色、紫红和青色中的每一个都是利用三个子部分(sub-division)来表示的。将饱和度和值中的每一个都量化为三个量化级,这三个量化级在这些尺度上产生了较大的感知公差。通过采用18个色彩、3个饱和度、3个值再加上4个附加灰度,就可以认为有166个不同的颜色(18×3×3+4=166)。

通过考虑三个YCbCr量化级以及HSV量化级而得到的四颜色直方图,都是从全尺寸图像和DC-图像中提取出来的。这样,每一个关键帧都具有相关的8个不同颜色的直方图。

通过利用L1以及欧几里德距离,可以对不同图像的颜色直方图进行比较。

在YCbCr彩色空间的三个量化级之间,可以利用从DC图像以及与L1距离的比较而提取出的256个格块的直方图,得到最佳结果。这样,就证实了L1距离所执行的效果要好于更昂贵的欧几里德距离。此外,还发现从DC图像中而不是从全尺寸帧中提取直方图,并没有降低这个描述符的检索特性。

还发现,从DC图像中提取出的HSV彩色空间内的166个格块的直方图,要优于YCbCr彩色空间内的直方图。这个结果是由于HSV彩色空间接近感知均匀,与YCbCr彩色空间的256个离散值相比,将HSV彩色空间量化为166个不同颜色提供了更好的颜色范围。

尽管可以适度鉴别出一个全局颜色描述,但缺少空间信息会导致在比较多个可视物时,给出太多的虚假正像,所述全局彩色描述符例如可以是由一个彩色直方图提供的一个颜色描述。感觉上不相同的所检索的可视物可能具有非常相似的彩色直方图。为改善检索效果和精度,可以同时使用颜色特征以及空间关系。也考虑空间信息色栅直方图以及随后的基于直方图的描述符将所述全局颜色特征扩展为一个局部颜色特征。

为了对由传统的彩色直方图所表示的全局颜色特征进行扩展,一种通常的方法是将可视物分割为子块,并从每一个子块中提取出颜色特征。色栅直方图就遵循这一方案,它可以由10个直方图构成。在这种情况下,利用一个3×3的矩形网格,将该可视物分割为9个区域。从每一个区域中,计算出一个传统的彩色直方图。第10个直方图是完整的可视物的彩色直方图。可通过考虑重叠区域来改善子块划分。利用这个方案,使得这种描述符对于小区域的变换相对较迟钝。

色栅直方图的提取处理基本上与传统的彩色直方图的提取处理一致。唯一不同的是:要增加的直方图的组成部分也依赖于可视物内像素的空间位置。

由于色栅直方图是由传统的彩色直方图构成的,用于对直方图进行比较的同一个距离度量也可以用于子块直方图。两个色栅直方图之间的距离将是这些子块距离的总和。另外,我们还可以依据子块直方图在所述图像内的位置,对它们之间的距离进行加权。例如,由于对大多数可视物来说中央区域吸引了观看者的注意力,因而对中央块的加权应当多于其它块,所以在判断相似性时,人们对一个图像的中央倾注了更多的关注。

可通过利用一个3×3的方形网格,将一个全尺寸的关键帧划分为9个区域,并通过为每一个子块计算出一个64个格块的彩色直方图,从而得到了色栅直方图的描述符。另外,还计算用于整个图像的另一个64个格块的直方图。这样,该描述符就由10个直方图构成。

每个直方图都是在YCbCr彩色空间内计算的。将Y、Cb和Cr彩色信道中的每一个都线性量化为4个量化级。最好是,被用作MPEG-2数据流内的颜色信息的YCbCr彩色空间,在这种格式下是可用的。

用于对不同图像的色栅直方图进行比较的距离,是相应的几个子区直方图之间的L1距离或欧几里德距离之和。

另外,我们依据子块直方图在所述图像内的位置,对它们之间的距离进行加权。对中央块距离的加权是对其它区域加权的2到10倍。

对同一个图像的实验测试显示:色栅直方图能给出较好的结果,但平均而言,它并不比传统的直方图更好。即便在距离的计算中使用了不同的加权,但考虑到执行提取、比较以及存储而引起的额外花费,使得检索效果没有得到改善。

颜色结构直方图或(在文献中也叫做班点直方图(blob hisogram))利用结构元件,来表示可视物的局部颜色结构,其中所述结构元件包括几种像素值。传统的彩色直方图利用一个特定的颜色来描绘单个像素值的相对频率。颜色结构直方图则与它们不同,这是因为它们利用一个特定的颜色对包含一种像素的结构元件的相对频率进行编码。颜色结构直方图从传统彩色直方图中继承了恒定的特征,又通过嵌入一个空间信息,而大大地增加了它们的识别力。

如果我们考虑存在n个不同颜色的离散的彩色空间CS,则用于可视物I的一个颜色结构直方图可定义如下:

定义2:一个颜色结构直方图H(I)是一个矢量<H1,H2,......,Hn>,其中每个分量Hj都包括含有颜色Cj的一个或多个像素的所述可视物I内的结构元件的数目。

结构元件的空间内容取决于可视物的大小,但是,通过对可视物和结构元件同时进行子采样,使得结构元件内的样本数目保持恒定。如果我们选择以8×8的模式出现的、在结构元件内的64个采样,该模式下的两个采样之间的距离,将会随着可视物尺寸的增大而增大。如果这些可视物都被调整到一个固定的基本尺寸,则可以使用同一个8×8的结构元件,否则可以按照如下方式确定子采样系数和结构元件的宽度以及高度。令E为原始可视物I内的结构元件的空间范围,即空间范围为E×E。令K为所应用的子采样系数,即K={1,2,4,8,16......},其中K=1表示没有子采样,K=2表示按水平和垂直2维执行的子采样,等等,K和E定义如下:

p=max{0,round(0.5·log2(宽·高)-8)}

             K=2p

             E=8K

其中,宽和高是指矩形可视物I。如果p<0,则我们认为p=0。

通过观察可视物的所有单元,并对包含在覆盖于每个单元上的结构元件内的所有像素的颜色进行检索,并逐步增加相应的格块,从而可以计算出颜色结构直方图。可以在处理结束时,按结构元件的数目使直方图的格块归一化。图3显示了利用8种不同颜色的一个可视物的提取处理。

作为4×4个像素大小的一个方块的结构元件32,像一个滑动窗那样越过可视物。在某个位置(在图中仅仅描述了该可视物的一部分),结构元件包括4个颜色为C0的像素、6个颜色为C1的像素以及6个颜色为C2的像素。这样,列C0、C1和C2内的格块将会递增。于是,在这种情况下,对结构元件执行了三次计数,其中,对该结构元件区域内所出现的每种颜色计数一次。

由于颜色结构直方图、颜色相关图、颜色自相关图、颜色相干矢量以及联合直方图都是基于直方图的描述符,因此,可以利用为传统彩色直方图所提供的同一个相似匹配标准,对所有这些其它的可视描述符进行比较。当然,不同特征空间内的距离值不具有可比性。

颜色相关图是按颜色对检索的表,其中对于<i,j>的第k个入口指定了找到与颜色为Ci的一个像素相距距离k的颜色为Cj的一个像素的概率。颜色相关图显示了颜色的空间相关性如何随距离变化。

给出一个可视物I和一个离散的有n个不同颜色的彩色空间CS,令I(p)表示像素值p∈I的颜色。这样,标记p∈Ic与p∈I,I(p)=c意义相同。我们利用L∞-范数来测量像素值之间的距离:对于像素P1=(x1,y1),P2=(x21,y2),我们定义:

‖P1-P2‖≡max{|x1-x2|,|y1-y2|}我们用[n]来表示集合{1,2,......,n}。利用这种记号,i∈[n]颜色直方图H(I)被定义如下: >>>h>ci>>>(>I>)>>=>>Pr>>p>∈>I> >[>p>∈>>I>ci>>]>>s>对于可视物I内的任意一个像素值,给出了像素颜色为ci的概率。令距离d∈[n]是事先固定的。这样,i,j∈[m],k∈[d],I的颜色相关图被定义如下: >sup>>γ>>>c>i>>,>>c>j>>>>(>k>)>sup>>≡>>Pr>>>p>1>>∈>>I>>c>1>>>,>>p>2>>∈>I> >[>>P>2>>∈>>I>>c>j>>>|>|>|>>p>1>>->>p>2>>|>|>=>k>]>>s>给出图像内的颜色为ci的任何一个像素,则给出了与该给定像素相距距离k处的一个像素的颜色为cj的概率。

当在一个可视物内的不同颜色的数目非常大时,颜色相关图的空间和时间的计算复杂度增大,这就降低了其检索性能。可以通过仅仅考虑完全相同的颜色之间的相关性,从而部分地避免这种情况。这种专用的颜色相关图被称为颜色自相关图。I的自相关图仅仅捕获到了完全相同的颜色之间的空间相关,它被定义为; >sup>>α>c>>(>k>)>sup>>>(>I>)>>≡sup>>γ>>c>,>c>>>(>k>)>sup>>>(>I>)>>>s>

通过包括与可视物上的颜色分布相关的空间信息,使得颜色相关图和自相关图提供了比颜色直方图还要好的识别力,特别是在处理具有相似的颜色,但具有不同颜色布局的可视物的情况下,更是如此。

计算可视物I的颜色相关图的自然算法(naive algorithm)应该考虑:每个P1∈颜色cj的I,以及对于每一个k∈[d],利用‖P1-P2‖=k,对所有的P2∈颜色cj的I进行计数。不幸的是,这需要花费0(d2S)的时间,其中S是I的像素值的总数。为了避免这种昂贵的计算,在1999年的International Jouranal of Computer Vision,第35卷,No.3的第245-268页的文章“Spatial Color Indexing and Application”中,描述了基于动态编程的一种有效的算法。这使得计算时间减小到0(dS)。

依据检索的有效性,已经发现具有L1距离的颜色自相关图,要好于传统的直方图。尽管如此,但如果我们考虑其执行计算、比较以及存储所附加的费用,则最佳描述符还是便宜、有效的彩色直方图。

众所周知的颜色相干矢量基本上是为包含与颜色分布相关的某些信息而扩展的彩色直方图。一个颜色的相干被定义为:该颜色的像素作为一个可视物I的大相似颜色区域成员的程度。我们考虑一个可视物I,在给定的彩色直方图H(I)的颜色斗内的每一个像素,或者可以被分为相干的,或者也可以被分为非相干的,这取决于它是否是大相似颜色区的一部分。一个颜色相干矢量(CCV)为每一种颜色都存储了相干与非相干像素的百分比。如果我们需要调用第j个离散颜色αj的相干像素的百分比,以及非相干像素βj的百分比,则可以利用一对矢量来表示一个颜色相干矢量,其中每个颜色用于每个离散的颜色:

<(α1,β1),......,(αn,βn)>

注意,通过对符号αn、βn保持相同的意义,可以利用如下矢量来表示一个传统的颜色直方图:

11,......,αnn>。

颜色相干矢量(CCT)能防止一个可视物内的相干像素与另一个可视物内的相干像素进行匹配。通过将相干像素同非相干像素分离开,CCV提供了比彩色直方图更出色的识别力。

用于提取颜色相干矢量的第一步是:通过用一个小的局部邻域(一般是8个相邻的像素)内的平均值来代替像素值,而使可视物轻微模糊。这样,消除了相邻像素之间的小的变化。最好是,使用具有n个不同颜色的离散颜色空间。

下一步是:对一个指定颜色斗内的像素进行分类,将其分为相干的或不相干的。一个相干像素是同一个颜色的一个大像素群的一部分,而不相干像素则不是。我们通过对连接分量进行计算,从而确定出该像素群。

定义3:连通分量C是这样的最大像素集合,以致对于任意两个像素P,P′∈C,在C内,在P和P′之间存在一条通路。

定义4:C内的一条通路是这样的像素序列P=P1,P2,......,Pn-P′,以致每个像素P′∈C,且任意两个连续的像素Pi,Pi+1,都彼此相邻。如果一个像素位于另一个像素的8个最相邻的像素之中,我们就认为两个像素是相邻的。

注意,只对给定颜色斗内的连通分量进行计算。当连通分量的计算结束时,每个像素将精确地属于一个连通分量。我们依据其连通分量的像素的大小,将像素分为相干的或不相干的。如果一个像素的连接分量的大小超过一个规定值τ,则该像素是相干的;否则,该像素就是不相干的,τ通常被设定为可视物大小的1%。

我们发现,从检索效果、计算费用以及响应时间来看,与L1距离相比,被量化为166种颜色(给出了332个格块的矢量)的HSV彩色空间内的颜色相干矢量,是最好的可视描述符。

与常规的颜色直方图相似,颜色相干矢量可以对光条件的改变非常敏感。保持与光无关的颜色属性的一种办法可以是:仅仅使用HSV颜色描述符内的色调以及饱和度分量,或是经由RGB彩色空间的红、绿和蓝的和,使红、绿和蓝归一化。

本领域人员所熟知的联合直方图,是颜色相干矢量和颜色直方图的一种概括。通过不仅仅是考虑颜色相干,同时还考虑一组局部像素特征,就可以将这些连通直方图看作是多维直方图。一个连通直方图中的每个入口都包括由特征值的一个特定组合所描述的所述图像内的若干像素。更准确地说,给出一个k个特征的集合,其中第1个特征具有n1个可能值,联合直方图是一个k维矢量,以致联合直方图内的每个入口都包含由一组k元特征值所描述的一个可视物内的像素的百分比。因此,联合直方图的大小为它是每个特征的一些值的可能的组合数。如同颜色直方图对像素颜色的密度进行编码那样,联合直方图对几个像素特征的连接密度进行编码。可以将一个颜色相干矢量看作是仅仅将颜色和颜色相干用作特征的一个联合直方图。可以将色栅直方图看做是将属于一个特定子区的颜色和位置用作特征的联合直方图。通过使用再一些附加的特征,象边缘密度(一个像素的边缘密度是围绕该像素的一个小邻域内的边缘与像素的比值)、结构(texturedness)(一个像素的结构是某些相邻像素的个数,这些相邻像素的亮度比所述像素的高出一个固定值)、梯度量值(梯度量值是表示亮度在最大变化方向上改变得有多快的一种度量)、等级(rank)(一个像素P的等级被定义为:在其亮度小于P的亮度的局部邻域内的像素个数)等,......,联合直方图提供了比颜色相干矢量更出色的辨别力。

从一个可视物提取出联合直方图的步骤,依赖于所选取的用于表征可视内容的特征。一般,选择可以在线性时间内有效计算出的特征。

除了可以被看作是联合直方图的色栅直方图和颜色相干矢量之外,还使用将颜色、颜色相干以及平均结构复杂度作为特征的联合直方图。平均结构复杂度的估测利用了嵌入MPEG-2视频流的压缩域信息。当它们超过一个阈值时,将每个块的离散余弦变换的64个系数都设置为最大值,而当它们低于该阈值时,将上述64个系数设置为0。如果非零像素的个数高于另一个预定阈值,则这个块被判定为“复杂”。除了颜色和颜色相干,还可以依据像素所属的块的结构复杂度,将一个关键帧的每个像素分成两类。

联合直方图的的平均检索性能可以与通过采用颜色相干矢量而获取的平均检索性能相提并论。附加的结构特征改善了辨别力,但是实现所述特性的费用比较高。

利用I帧来改善关键帧的检索效果。如果关键帧不是按照特定标准选出的,那么,采用相邻I帧的可视描述符,能够提高针对跳转到下一个(前一个)相似图像这一功能的检索效果。不是仅仅考虑用于每个关键帧的一个可视描述符,而是对靠近所述关键帧的一组I帧的所有描述符进行计算,此外,我们还分配给它其距离接近查询数值的描述符。

以下,是这项技术的更准确的说明。我们假定,对于每个镜头片段,将第一个I帧选为关键帧。给出一个视频序列V=[f0,f1,......,fn],其中fi∈V是第i个I帧,令kq∈V为所查询的关键帧,区间是被认为是不相似的两个图像上的最大距离。

ks∈Vs.t.距离(kq,ks),则

S={fi|s≤i≤s+N,N≥0}f’∈Ss.t.d=距离(kq,f′)∧f’∈S:d≤距离(kq,f)

最后,将与I帧f′以及距离值d相关的描述符分配给关键帧ks

在一个最佳实施例中,选取了N个不同的常数值。此外,还采用了每个镜头片段的所有I帧(在这种情况下,N取决于片段的长度)。

已经发现,图像相似性的搜索是可能的,且在单一一个节目的关键帧上执行时非常有效。在不同的节目之间进行搜索也是可能的,但比较困难,这是因为巨大数目的所涉及关键帧。对于几十万的图像,主要的问题是虚假正像以及高的响应时间。

虚假正像源于不同图像具有相似的可视描述符。图像越多,发现具有相似颜色但是内容完全不同的帧的概率就越大。为减小虚假正像的数目,即提高搜索精度,可以使用非常有鉴别力的可视描述符。

由于非常有鉴别力的描述符的计算复杂度,使得进一步增加了响应时间。为减少响应时间,即便是在连接时,也可以采取两个策略。第一个策略,称为预滤除,利用一个粗描述符来选取第一组潜在的相似图像。这样,仅仅将非常有鉴别力的以及计算昂贵的描述符用于选择所述第一组内的图像,这样就需要更容易接受的响应时间。第二个策略在于,在比较描述符时,避免连续扫描。数据存取结构在本领域内是公知的,像R树、S树或M树,它们允许某种方式的描述符的结构,以致有可能仅仅保留相关的图像,而不用分析整个数据库。这些表征需要将描述符建模为矢量内,或度量空间内的点,这种作法对数据管理系统添加了一些计算成本。这样,它们适合于非常大的视频(图像)数据库。

尽管是参照最佳实施例对本发明进行的说明,但应当理解这些都是非限制性的例子。这样,各种未脱离权利要求书所定义的本发明范围的修改,都是本领域人员能够想像得到的。举个例子,可以由第三方将包含记录资料特征的内容表目提供给用户,作为使记录资料更有吸引力的一项服务。如果内容表目是以用户的兴趣为基础的,则他的兴趣就确定了信息信号的多个部分之间的相似性的内容。

动词“包括”及其动词变化的使用并不排除权利要求中所声明的内容之外所出现的元件或步骤。此外,在一个元件之间使用的冠词“a”或“an”并不排除出现若干这种元件。在权利要求书中,位于圆括号之间的任何参考标记不应解释是为对权利要求书的范围的限制。本发明既可以通过硬件也可以通过软件来实现。可以用同一个硬件表示几个“装置”。此外,本发明存在于每一个新颖的特征,或是若干特征的组合。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号