首页> 中国专利> 使用多媒体提示来分段和索引电视节目的方法

使用多媒体提示来分段和索引电视节目的方法

摘要

本发明针对使用给定节目类型的多媒体提示特征进行视频分段和索引的一个方法。依照本发明,通过为视频段的每个帧计算出的多媒体信息概率来选择这些多媒体提示。每个视频段被分成子段。使用每个帧的多媒体信息,也为每个子段计算出多媒体信息的一个概率分布。每个子段的概率分布组合起来形成一个组合概率分布。进一步地,具有该组合概率分布中最高组合概率的多媒体信息被选作占优势的多媒体提示。

著录项

  • 公开/公告号CN1582440A

    专利类型发明专利

  • 公开/公告日2005-02-16

    原文格式PDF

  • 申请/专利权人 皇家菲利浦电子有限公司;

    申请/专利号CN02801394.8

  • 发明设计人 R·S·亚辛施;J·路易斯;

    申请日2002-04-22

  • 分类号G06F17/30;H04N7/24;

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人程天正;王忠忠

  • 地址 荷兰艾恩德霍芬

  • 入库时间 2023-12-17 15:55:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-06-10

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20061108 终止日期:20140422 申请日:20020422

    专利权的终止

  • 2013-02-06

    专利权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20130106 申请日:20020422

    专利申请权、专利权的转移

  • 2009-10-07

    专利申请权、专利权的转移(专利权的转移) 变更前: 变更后: 登记生效日:20090828 申请日:20020422

    专利申请权、专利权的转移(专利权的转移)

  • 2006-11-08

    授权

    授权

  • 2005-04-20

    实质审查的生效

    实质审查的生效

  • 2005-02-16

    公开

    公开

查看全部

说明书

本发明总地涉及到视频数据服务和设备,并且特别地涉及到一个使用多媒体提示(cue)来分段和索引电视节目的方法和设备。

在当今的市场上有许多的视频数据服务和设备。其中的一个例子是TIVO箱。这个设备是一个个人数字录像机,它能够连续地录制卫星、有线或广播电视。TIVO箱还包括一个电子节目指南(EPG),它使一个用户能够选择要录制的一个特定的节目或者一类节目。

对电视节目进行分类的一种方式是根据风格。风格通过类别来描述电视节目,例如商业、记实、戏剧、健康、新闻、体育和谈话。在论坛媒体服务EPG中可以找到有关风格分类的例子。这个特定的EPG中,字段173到178被指定为“tf_genre_desc”,它们是为电视节目风格的文本描述而预留的。因此,使用这些字段,用户可以安排一个TIVO类型箱去录制一个特定类型风格的节目。

然而,并不总是期望使用基于EPG的描述。首先EPG数据可能不总是可用的或者不总是准确的。而且,在当今的EPG中,风格的分类是针对整个节目的。然而,有可能有这样的情况:单个节目中的风格分类逐个分段地改变。因此,需要直接从与EPG数据无关的(1Y)节目中产生风格分类。

本发明针对从许多视频段选择占优势的多媒体提示的一个方法。该方法包括一个为该视频段的每个帧计算的多媒体信息概率。每个视频段被分成多个子段。使用每个帧的多媒体信息也为每个子段计算多媒体信息的概率分布。每个子段的概率分布结合起来形成一个组合概率分布。而且,具有该组合概率分布中最高组合概率的多媒体信息被选为占优势的多媒体提示。

本发明也针对分段和索引视频的方法。该方法包括从视频中选出的节目段。节目段被分成节目子段。使用一个给定节目风格的多媒体提示特征,对节目子段进行基于风格的索引。而且,也对节目子段进行基于对象的索引。

本发明还针对存储视频的方法。该方法包括被预处理的视频。同样是从该视频中选出的节目段。节目段被分成节目子段。使用一个给定节目风格的多媒体提示特征,对节目子段进行基于风格的索引。而且,也对节目子段进行基于对象的索引。

本发明还针对一个存储视频的设备。该设备包括一个预处理该视频的预处理器。包括一个分段和索引单元,用于从视频中选择节目段、将该节目段分成节目子段并且使用一个给定节目风格的多媒体提示特征对节目子段进行基于风格的索引,从而产生索引的节目子段。还包括一个存储设备,用于存储索引的节目子段。而且,分段和索引单元还对节目子段进行基于对象的索引。

现在参考附图,参考数字在下列各图中表示相应的部分:

图1是一个流程图,表示一个依照本发明确定多媒体提示的方法实例,

图2是一个表,表示一个中等的音频信息概率的例子,

图3是一个表,表示一个依照本发明的投票和阈值系统的实例,

图4是一个条形图,表示使用图3系统计算出的一个概率分布,

图5是一个流程图,表示依照本发明对电视节目进行分段和索引的一个方法实例,

图6是一个条形图,示例了另一个依照本发明的多媒体提示例子,

图7是一个方块图,表示一个依照本发明的录像设备的实例。

多媒体信息分成三个域,包括(i)音频,(ii)视频和(iii)文本。每个域中的这个信息又分成不同的粒度等级,包括低等、中等和高等。例如低等音频信息用诸如平均信号能量、逆频系数和音调的信号处理参数来描述。一个低等可视信息的例子是基于象素或者帧的,包括可视属性,例如在每一个象素处表现的颜色、运动、形状和结构。对于闭路字幕(closed captioning,CC),低等信息用ASCII字符给出,例如字母或者单词。

根据本发明,优选使用中等多媒体信息。这种中等音频信息通常由静音、噪音、语音、音乐、语音加噪音、语音加语音和语音加音乐这些类别组成。由于使用了中等可视信息关键帧,它们被定义成一个新视频镜头(具备相似的强度概况的视频帧序列)的第一帧、颜色和可视文本(文本重叠在视频图象之上)。对于中等CC信息,它是一组关键字(表示文本信息的单词)和类别,例如天气、国际、犯罪、体育、电影、时尚、技术股票、音乐、汽车、战争、经济、能源、灾难、艺术和政治。

作为这三个多媒体域的中等信息,它们都使用了概率。这些概率都是0到1之间的实数,它判定在一个给定的视频段内,对于每一个域来说,每一种类别的代表性如何。例如,接近1的数字判定一个给定的类别很可能是一个视频序列的一部分,而接近0的数字则判定相应的类别出现在一个视频序列中的可能性很小。应该注意的是本发明不限于上述中等信息的特定选择中。

根据本发明,已经发现对于一个特定类型的节目来说,都有占优势的多媒体特征或提示。例如,商业广告节目段中通常比节目段中有更高的每单位时间的关键帧百分比。进一步地,谈话节目中通常会有较多数量的语音。因此,根据本发明,这些多媒体提示用于对电视节目进行分段和索引,就像下面结合图2所描述的那样。特别地,这些多媒体提示用于为电视节目子段产生风格分类信息。相反地,现在的个人录像机,例如TIVO箱,只包括整个节目的风格分类来用作EPG中的简短描述性文本信息。进一步地,根据本发明,多媒体提示也用于将节目段从商业广告节目段分开。

在使用之前,首先要确定多媒体提示。依照本发明确定多媒体提示的一个方法实例如图1所示。在图1所示的方法中,每一个节目的分离视频段在步骤2-10进行处理。进一步地,在步骤12-13,为了确定一个特定风格的多媒体提示,对许多的节目进行了处理。为了讨论的目的,可以假定视频段源于有线、卫星或者广播电视节目。既然这些类型的节目安排都包括节目段和商业广告节目段,所以进一步假定一个视频段可以是一个节目段或者一个商业广告节目段。

在步骤2,对视频每一帧的多媒体信息概率进行计算。这包括计算多媒体信息出现的概率,例如视频每一帧中的音频、视频和转录本。为了执行步骤2,基于多媒体信息的类别而使用不同的技术。

在可视域中,例如对于关键帧来说,使用了来自DCT系数的DC分量的宏块级信息以确定帧差异。关键帧出现的概率是一个比(实验性地)给定阈值大的给定DC分量差值的归一化数字,在0和1之间。给定两个连续的帧,将DC分量提取出来。将这个差值和一个实验性确定的阈值进行比较。同时也计算出DC差值的最大值。最大值和0(DC差值等于阈值)之间的范围用于产生概率,它等于(DC差值-阈值)/最大DC差值。

对于视频文本来说,顺序地使用边沿检测、阈值处理、区域合并和特征形状提取来计算概率。在本实现方法中,只是查看每帧文本字符的出现或者不出现。因此,对于文本字符的出现,概率等于1,而文本字符没有出现,概率就等于0。进一步地,对于面孔,通过用一个给定概率进行的检测来计算概率,这个给定的概率依赖于脸的肤色和椭圆的脸形的组合。

在音频域,对于每一个22ms的时间窗口,在静音、噪音、语音、音乐、语音加噪音、语音加语音和语音加音乐类别之间实现对“一段”的分类。这是一个“胜者拿走所有”的结果,其中只有一个类别会赢。然后对于100个这样的连续段,也就是说,大概持续2s,重复这个过程。然后执行对于给定类别分类的段数目的计数(或者投票),然后将其除以100。这样就给出所有2s间隔内每一种类别的概率。

在转录域中有20个闭路字幕类别,包括天气、国际、犯罪、体育、电影、时尚、技术股票、音乐、汽车、战争、经济、能量、股票、暴力、金融、国内、生物技术、灾难、艺术和政治。每一类别都与一组“主”关键字相联系。在这组关键字中存在着重叠。对于每一个在“>>”符号之间的CC段落,都要确定关键字,例如,那些重复的单词,并且和“主”关键字的20个列表相匹配。如果两者之间有匹配,那么就投这个关键字一票。对段落中所有的关键字都要重复这个过程。最后,投的票被除以这个关键字在每个段落中出现的总次数。因此,这就是CC类别的概率。

对于步骤2,最好计算出每个域里多媒体信息的每一(中等)类别的概率,对于视频序列的每个帧都进行此计算。音频域中一个这种概率的例子如图2所示,它包括7个上面定义的音频种类。图2的前两列对应视频的开始和结束帧。而后面的7列却包括相应的概率,每个中等类别一个。

转回去参考图1,在步骤4,初始选择多媒体提示,它们是一个给定电视节目类型的特征。然而,此时这个选择基于常识。例如,众所周知,电视商业广告节目一般有较高的剪接率(=每单位时间的大量的镜头或者平均关键帧);然后再使用可视关键帧率信息。另一个例子中,对于MTV节目来说,在大多数情况下,通常会有很多的音乐。因此,常识显示应该会用到音频提示,并且特别地集中在“音乐”和(也许)“语音+音乐”类别上。因此,常识是电视作品提示和电视节目中通用(就像由领域测试中验证的那样)的元素的主体。

在步骤6,视频段被分成子段。步骤6可用多种不同的方式进行,包括将视频段分成任意相等的子段或者通过使用一个预先计算好的镶嵌方格。进一步地,如果闭路字幕信息包含在视频段的转录信息里,也可使用闭路字幕信息划分该视频段。众所周知,除了表示字母表字母的ASCII字符,闭路字幕信息还包括字符,例如用双箭头表示主题或者个人讲话的改变。既然说话者或者主题的一个改变可表示视频内容信息中的一个重大改变,那么期望以诸如一种关于说话者改变信息的方式来划分视频段。因此,在步骤6,最好在这些字符出现的地方划分视频段。

在步骤8,使用步骤2计算出的概率,对包含在每一个子段中的多媒体信息的概率分布进行计算。因为计算出的概率是针对每一个帧的,并且电视节目的视频中有很多帧,典型地大概是每秒30帧,因此这个计算是必要的。这样,通过确定每一个子段的概率分布,可以获得一个可估计的密度。在步骤8,通过首先将每一个概率值和每一类别多媒体信息的(预定的)阈值进行比较,而获得概率分布。为了允许通过最大数量的帧,优选一个较小的阈值,例如0.1。如果每一个概率都大于它相应的阈值,则和这个类别相联系的值就是1,如果每一个概率都不大于它相应的阈值,则指配为0。进一步地,在将0和1指配给每一类别之后,对这些值求和,并且除以每个视频子段的帧的总数。结果是一个数字,它确定给定类别当前适应于一组阈值的次数。

在步骤10,将在步骤8中为每个子段计算出的概率分布结合起来为一个特定节目中的所有视频段提供单个的概率分布。根据本发明,可以通过为每个子段概率分布形成一个平均值或者一个加权平均值来完成步骤10。

为了为步骤10计算加权平均值,最好使用一个投票和阈值系统。此类系统的一个例子如图3所示,图中前三列投票的数目和后三列的阈值相对应。例如,在图3中假设除了7个音频类别之外,3是占优势的。这个假定基于图1步骤4中初始选择的多媒体提示。目标视频的每一子段和7个音频类别的每一个的概率被变换成0到1的数字,其中100%将对应于概率1.0等等。首先,确定子段概率P落在哪个区间内。例如,在图3中,对于每一个给定的概率P,包含四个区间。第一行为:(i)(0≤P<0.3),(ii)(0.3≤P<0.5),(iii)(0.5≤P<0.8),(iv)(0.8≤P≤1.0)。三个阈值确定了区间的边界。然后,依赖于P落在哪一个区间内进行投票且它接着被指配。图3所示的所有可能的15种组合都要重复这个过程。在这个过程的最后,就会获得对于每个字段的一个给定的总投票数。这个过程对任何一个多媒体类别都是通用的。在这个过程的最后,给定节目段(或者是商业广告节目段)的所有子段和所有节目段都会被处理从而为整个节目提供一个概率分布。

转回来参考图1,执行完步骤10后,为了开始处理另一个节目的视频段,该方法又返回步骤2。如果只有一个节目正被处理,那么该方法会只是前进到步骤13。然而,最好为一种给定风格的节目或商业节目的处理多个节目。如果没有更多的节目要处理,该方法将会进行到步骤12。

在步骤12,将同一种风格的多个节目的概率分布结合起来。这为同一种风格的所有节目提供了一个概率分布。一个此类概率分布的例子如图4所示。根据本发明,可以通过计算同一种风格所有节目的概率分布的一个平均值或者一个加权平均值来完成步骤12。同样,如果步骤12中结合起来的概率分布是使用一个投票和阈值系统进行计算的话,那么,步骤12还可通过简单地对同种风格所有节目的同一类别票数求和来完成。

完成步骤12之后,含较高概率的多媒体提示在步骤13中被选出来。在步骤12计算出的概率分布中,一个概率和每一个类别相联系而且用于每一个多媒体提示。因此在步骤13,含较高概率的类别会被选作占优势的多媒体提示。然而,含绝对最大概率值的单个类别没被选中。作为替代,一组具有联合最高概率的类别被选中。例如,在图4中,语音和语音加音乐(SpMu)类别具有最高的电视新闻节目概率,因此在步骤13,它们将被选作占优势的多媒体提示。

依照本发明的分段和索引电视节目的一个方法实例如图5所示。就像所看到的那样,第一个方框表示输入视频14,它将依照本发明被分段和索引。为了讨论的目的,输入视频14可代表有线、卫星或者广播电视节目,它包括很多分离的节目段。进一步地,就像在多数电视节目里一样,在节目段之间会有一些商业广告节目段。

为了将节目段18从商业广告节目段中分离出来,在步骤16将节目段从输入视频14中选择出来。现在有许多已知方法用于在步骤1 6选择节目段。然而依照本发明,最好是使用给定视频段类型的多媒体提示特征进行节目段选择16。

如上所述,那些能够标识一个视频流中的商业广告节目的多媒体提示被选出来。其中的一个例子如图6所示。就像所看到的那样,商业广告节目的关键帧百分率比节目的要高得多。因此,关键帧率将是要应用到步骤16中的一个很好的多媒体提示实例。在步骤16将这些多媒体提示与输入视频14的段进行比较。那些不符合多媒体提示模式的段被选作节目段18。这通过将每种多媒体类别的测试视频节目/商业广告节目段的概率与以上图1方法中获得的概率相比较来完成。

在步骤20,节目段被分成子段22。这个划分过程通过将节目段分成任意相等的子段或者通过使用一个预先计算好的镶嵌方格来完成。然而,最好是根据包含在视频段中的闭路字幕信息来在步骤20中划分节目段。如上所述,闭路字幕信息包括字符(双箭头),用它来表示主题或者个人讲话的改变。由于说话者或者主题的一个改变能够标识视频中的一个重大变化,所以这是划分节目段18的理想位置。因此,在步骤20,最好在这样一个字符出现的地方划分该节目段。

在完成步骤20之后,就在步骤24和26中进行对节目子段22的索引,如图所示。在步骤24,对每个节目子段22都进行基于风格的索引。如上所述,风格通过类别来描述电视节目,例如商业、记实、戏剧、健康、新闻、体育和谈话。因此,在步骤24,基于风格的信息被插入到每个子段22中。这个基于风格的信息可表示为标签的形式,该标签对应于每个子段22的风格分类。

依照本发明,基于风格的索引24将使用由图1所描述方法产生的多媒体提示进行。如上所述,这些多媒体提示是一个给定风格节目的特征。因此,在步骤2 将作为特定风格节目特征的多媒体提示与每个子段22进行比较。在那些多媒体提示之一和子段相匹配的地方,插入一个指示风格的标签。

在步骤26,对节目子段22执行基于对象的索引。因此,在步骤26插入标识一个子段中包括的每个对象的信息。这个基于对象的信息可表示为标签的形式,该标签和每个对象相对应。为了便于讨论,一个对象可以是背景、前景、人、汽车、音频、脸、音乐剪辑等等。现在有许多进行基于对象索引的已知方法。这些方法的实例在以下专利中描述:授予Courtney的美国专利序号5,969,755、题目为“Motion Based EventDetection System and Method(基于运动的事件检测系统和方法)”;授予Arman等人的美国专利序号5,606,655,题目为“Method ForRepresenting Contents Of A Single video shot Using Frames(表示使用帧的一个信号视频镜头内容的方法)”;授予Dimitrova等人的美国专利序号6,185,363,题目为“Visual Indexing System(可视索引系统)”以及授予Niblack等人的美国专利序号6,182,069,题目为“Video Query System and Method(视频查询系统和方法)”,所有这些内容都被在此引入作为参考。

在步骤28,在步骤24、26被索引之后该子段组合起来产生分段和索引的节目段30。执行步骤28时,基于风格的信息或标签和来自相应子段的基于对象的信息或标签进行比较。在两者相匹配的地方,基于风格和基于对象的信息结合成同一个子段。作为步骤28的结果,每一个分段和索引的节目段30都包括指示风格和对象信息的标签。

依照本发明,由图1方法产生的分段和索引的节目段30可用到一个个人录像设备中去。这种录像设备的一个实例如图7所示。就像所看到的那样,该录像设备包括一个视频预处理器32,该处理器接收输入的视频。在操作期间,预处理器32完成对视频输入的预处理,例如如果需要的话,进行多路分解或解码。

一个分段和索引单元34与视频预处理器32的输出相耦合。在输入的视频被预处理之后,分段和索引单元34接收该输入的视频,以根据图5的方法进行视频分段和索引。如上所述,图5的方法将输入的视频分成节目子段,然后对每一个子段进行基于风格的索引和基于对象的索引,从而产生该分段和索引的节目段。

一个存储单元36与该分段和索引单元34的输出相耦合。存储单元36用于存储被分段和索引后的输入视频。存储单元36可具体化为一个磁或者一个光存储设备。就像进一步能看到的那样,还包括一个用户接口38。用户接口38用于访问存储单元36。依照本发明,一个用户可使用插入到该分段和索引的节目段中的基于风格和基于对象的信息,如上所述。这可使一个用户能通过用户输入40来检索基于特定风格或对象的整个节目、节目段或者节目子段。

本发明的以上描述都用于示例和说明的目的。它并不有意将本发明局限于公开的精确形式。根据以上的示教,可能有多种修改和变化。因此,意图是使本发明的范围不局限于详细的描述。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号