首页> 中国专利> 结合节目内容元数据和内容分析的时移电视视频匹配方法

结合节目内容元数据和内容分析的时移电视视频匹配方法

摘要

一种结合节目内容元数据和内容分析的时移电视视频匹配方法,属于电子信息技术领域。步骤如下:(1)元数据的获取:按包识别符提取视频节目元数据信息,按照数字广播业务信息规范进行解析,建立元数据信息索引,提供给查询模块调用;(2)压缩码流中的视频匹配:首先将视频序列分割为镜头,并在镜头内选择关键帧,然后提取镜头内的运动特征和关键帧中的静态特征,建立视频结构库和特征库,最后根据用户提交的查询按照特征进行匹配检索,将结果按相似性程度排序后交给用户。本发明充分利用了现有技术,加入了元数据高层语义特征,考虑了用户的反馈意见,提高了结果的精确度。

著录项

  • 公开/公告号CN101064846A

    专利类型发明专利

  • 公开/公告日2007-10-31

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN200710041117.4

  • 发明设计人 陈晓琳;杨小康;郑世宝;张瑞;

    申请日2007-05-24

  • 分类号H04N7/26(20060101);H04N7/14(20060101);G06F17/30(20060101);

  • 代理机构31201 上海交达专利事务所;

  • 代理人王锡麟;王桂忠

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-12-17 19:24:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2009-05-27

    授权

    授权

  • 2007-12-26

    实质审查的生效

    实质审查的生效

  • 2007-10-31

    公开

    公开

说明书

技术领域

本发明涉及的是一种电信技术领域的方法,具体是一种结合节目内容元数据和内容分析的时移电视节目视频匹配方法。

背景技术

电视业务是到目前为止最受用户欢迎的远程视频通信业务,到目前为止电视业务基本上还是以广播方式向用户提供单向业务,用户希望的随时随地获得所希望得到的视频节目一直还是一个梦想。在过去的几十年间,业界人士一直致力于研究具有交互性的视频业务。时移电视(Time-shifted TV)功能将用户从传统的节目时刻表中解放出来,这种革命性的服务能够让用户在看直播电视节目的时候,实现对节目的暂停、后退操作,并能够快进到当前直播电视正在播放的时刻。时移电视的实现是在直播电视的同时,同时存储一个复本到流媒体服务器(ME)。当用户选择了某一个时段的电视节目后,系统定位到相应的媒体文件时间点上进行播放。一路码率为2Mpbs的频道,保存一周,节目大小是15.12GB,如此巨大文件难以控制、操作和定位。传统的匹配方法一般基于低层特征(如颜色直方图、纹理或者形状等),这些特征通常不符合一般用户的认知习惯,相应的人机交互接口具有很大的局限性。为了实现更为贴近用户理解能力的自然而简洁的查询方式,并提高精度,近几年的研究逐渐转使用高层语义特征计算相似程度匹配方法。

经对现有技术的文献检索发现,Jiebo Luo等在IEEE Signal ProcessingMagazine(IEEE信号处理杂志)2006年3月第23卷,第2期,101-114页上发表的文章“Pictures are not taken in a vacuum(图片并不是在真空中拍摄的)”中提出组合图像的元数据(metadata)和图像特征进行检索和分类的方法,从而提高匹配的精确度。但是文章只介绍了对图像的检索精度的提高,并没有应用在视频匹配领域。在进一步的检索中,尚未发现与本发明主题相同或者类似的文献报道。

发明内容

本发明的目的在于克服现有技术中的不足,提供一种结合节目内容元数据和内容分析的时移电视视频匹配方法。使其不仅充分利用了视频对象的颜色、运动矢量等低层特征;而且利用了节目制作过程中的节目内容描述元数据。元数据可以方便用户在大量的节目中找到自己感兴趣的节目。本发明充分提高了查询速度和视频内容匹配的精确度。

本发明是通过以下技术方案实现的,具体步骤如下:

(1)元数据的获取:按包识别符提取视频节目元数据信息,按照数字广播业务信息规范进行解析,建立元数据信息索引,提供给查询模块调用。匹配过程首先进行元数据匹配,通过查找元数据索引缩小匹配范围,提高匹配速度。

SI(业务信息)是指在符合MPEG-2的传送流中,插入某些特殊的信息。其中,EIT(节目段信息表)按时间顺序提供每个业务中包含的节目的信息。如节目识别号、名称、起止时间、长度、运行状态、是否加密、节目介绍、节目码流类型、使用的加密系统、节目类型、限制级别、交互联系电话号码等。

EIT包含两种不同类型的表,分别为EIT p/f表和EIT-S表。EIT p/f给出了指定业务中当前和后一个事件的信息,而EIT-S则包含一周内或更长时间的节目预告信息。每个EIT表在被划分为多个段进行传输,任何构成EIT的事件信息段均在PID(包识别符)为0x0012的TS包中传输。解码器按PID提取这些信息,作为素材的元数据进行保存。这些信息为下一步的搜索提供了方便。

在节目信息结构PROG_INFO_STRUCT中,定义了EVENT_INFO_BASIC类型的二维数组event_info_database用来存放一个业务中的节目的信息。这些信息包括名称、开始时间、持续时间等信息。

日期和时间在TS流里是按照MJD(修正的儒略日期)+UTC(通用时间坐标)的格式并以16进制的形式给出的。参照GY/Z174-2001(数字电视广播业务信息规范)可转换为本地日期和时间。而节目的名称则通过解析描述符short_event_descriptor来实现。所有解析得到的信息最终都将用于建立节目内容元数据信息索引,作为匹配查询视频片断元数据和定位用户感兴趣节目的依据。

(2)压缩码流中的视频匹配

根据用户提交的Query(查询),在数据库中查找与之相似的视频片断。其基本思想是先提取视频样本的某些特征,然后根据与各视频片断比较的相似度得到最后结果。

首先要将视频序列分割为镜头(shot),并在镜头内选择关键帧(key frame);然后提取镜头内的运动特征和关键帧中的静态特征,建立视频结构库和特征库;最后根据用户提交的查询按照图像低层特征进行匹配检索,将结果按相似性程度排序后交给用户;检索是一个近似匹配,逐步求精的循环过程,当用户对查询结果不满意时可以多次交互与反馈,优化查询结果,直至得到较满意的结果。

①镜头边界检测:镜头是视频数据的基本单元,它代表一个场景中在时间上和空间上连续的动作,是摄像机的一次操作所摄制的视频图像。视频处理首先就需要把视频分割为镜头,以作为基本的索引单元,这一过程就称为镜头边界的检测。

由于视频数据是以压缩的形式保存,因此,这里选择直接在压缩域中进行边界检测。利用图像的直流分量信息构造DC图像,再用帧间差的方法进行检测。DC图像仅是视频数据中的一小部分,确包含了原图像的基本全局信息,且具有压缩性处理过程更加快捷的特点。

②关键帧提取:先选定一帧作为初始类心,然后根据当前帧与现有类心的距离来判断是归为现有某一类还是作为新的类心;聚类完成后,取离类心最近的帧作为关键帧,组成关键帧序列。

关键帧是从视频序列抽取出来的静态图像序列,代表了一个镜头的主要内容。关键帧的使用大大减少了视频索引的数据量,同时也为检索和浏览视频提供了一个组织框架。

③基于关键帧的特征提取:利用颜色直方图、颜色相关图和颜色矩特征表示图像颜色特征;采用小波变换进行纹理特征的分析;形状特征要求对位移、旋转、缩放的不变性,形状特征选择边缘方向直方图。

对各个镜头进行特征提取,得到一个尽可能充分反映镜头内容的特征空间,这个特征空间将作为视频匹配的依据。

以上①②③是针对视频数据库的管理操作,不需要用户的干预,可以离线完成。生成了对于视频内容的结构化可分级描述。

④检索匹配:按照某种相似度来寻找数据库中与查询描述特征向量相似的关键帧,把所有可能认为是用户需要的视频,按照相似度排序,全部罗列出来;

匹配过程是按照某种相似度来检索数据库中与查询相似的关键帧。通常使用的查询方法是通过直接说明特征或通过示例来查询。查询时,用户也可以指定使用特定的特征集。如果检索到满足条件的关键帧,用户就可以利用播放来观看它所代表的视频片断。

⑤相关反馈:用户向系统提供信息反馈,系统则根据用户的反馈来自动调整查询内容。

由于视频内容的复杂性以及机器和人对事物理解的差异,通常匹配结果不尽人意。利用相关反馈的循环过程,根据用户的反馈信息不断学习改变阈值重复匹配过程,逐步优化结果,直到满足用户的要求。

以上④⑤需要根据用户的意见反复执行,直到用户满意为止。最终通过关键帧来播放用户需要的视频镜头片断。

本发明的效果在于:采用本发明所述的针对时移电视视频匹配的方法,可以取得更快的匹配速度和更高的准确率。

本发明之所以具有显著的技术效果,其原因在于:针对时移电视视频本身的特点,在实施过程中,综合利用了节目制作过程中的节目内容描述元数据和视频对象的颜色、运动矢量等低层特征。目前国内尚未有报道提及把元数据应用于视频匹配中来。元数据索引方便了用户在海量的节目中快速定位到自己感兴趣的节目,从而降低了后续过程的计算量;提高了匹配的精确度。

附图说明

图1为本发明结构框图

图2为本发明视频匹配流程图

具体实施方式

下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实施例。

在具体实施过程中,用户首先向请求查找其感兴趣的媒体内容,处理元数据,通过查询采用同样方法预先生成的元数据索引确定媒体的位置;再经过视频匹配的流程,找到符合要求的视频片断。

如图1所示,本实施例可以分为以下几个步骤。

(1)元数据的获取

解码器按PID(包识别符)提取元数据信息。在节目信息结构PROG_INFO_STRUCT中,定义了EVENT_INFO_BASIC类型的二维数组event_info_database用来存放一个业务中的节目的名称、开始时间、持续时间等信息。提取到的时间信息需要按照GY/Z174-2001(数字广播业务信息规范)进行转换,解析short_event_descriptor描述符得到节目的名称。解析得到的节目内容元数据,用于建立节目内容元数据信息索引。解析得到的查询视频片断的元数据通过查找索引定位用户感兴趣节目的位置。

(2)压缩码流中的视频匹配

如图2所示,压缩码流中的视频匹配共涉及到如下方面:

①镜头边界检测

由于视频数据是以压缩的形式保存,因此,这里选择直接在压缩域中进行有效地边界检测。先从各帧图像中提取出每个8×8子块的直流分量,得到一个仅为原图像1/64大小的DC图像;再比较前后两帧的帧间距离,当距离超过门限时,既可认为是镜头边界。这里,门限需要预先设定或用训练数据训练得到。

②关键帧提取

先选定一帧作为初始类心,通常可以选镜头的第一帧。然后根据当前帧与现有类心的距离来判断是归为现有某一类还是作为新的类心,聚类完成之后,取离类心最近的帧作为关键帧,组成关键帧序列。

③特征提取

颜色特征计算简单、性质稳定,对于旋转、平移、尺度变化都不敏感,从而具有较高的鲁棒性。使用颜色直方图,自动颜色相关图和颜色矩特征作为颜色特征。

纹理是与物体表面材质有关的图像特征,反映了局部不规则而整体有规律的特性。小波变换表示的纹理特征是用每个波段的每个分解层次上能量分布的均值和标准方差。另外又建立一个基于象素之间方向性和距离的灰度共生矩阵,然后从矩阵中提取有能量、墒、对比度和一致性作为纹理特征。

形状特征的提取需要采用图像分割算法把不同对象从图像中分割出来,再进行匹配测量。形状特征要求对位移、旋转、缩放的不变性,它的提取一般仅限于非常容易识别的物体。形状特征使用边缘方向直方图来表示。

运动特征是视频镜头的重要特征,它反映了视频的时域变化,也是用视频例子进行匹配的重要内容。在MPEG码流中,B和P帧的运动矢量可以用来提取运动特征。利用宏块的运动得到特征向量,再用这个特征向量判断镜头的运动。

④匹配检索

对查询视频进行特征向量提取和融合,然后寻找数据库中与查询描述相似的关键帧,相似度由欧式距离来衡量。基于内容的视频匹配是一种相似性匹配,不同于基于关键字的精确匹配。可以设定相似度的门限,把所有可能认为是用户需要的视频,按照相似度排序,全部罗列出来,便于收集反馈意见,进行下一步的修正。通过元数据匹配的定位之后,和查询无关的视频大大减少;考虑到后续的反馈环节,门限可以设定返回50%的关键帧。

⑤相关反馈

用户根据本次查询结果与自己所期望的结果之间的相关性,向系统提供信息反馈,系统则把用户的反馈的结果作为新的查询来进行新一轮的匹配过程,使查询结果向用户的期望逼近。反馈的交互过程可以看作是一个训练过程,用户满意或不满意的两方面的结果,都可以用来修改特征向量的组合方式或分类器的判决标准,逐步提高输出结果的精度。

本发明充分利用了现有的技术,对压缩码流只进行部分解码,降低了计算复杂度;引入了节目内容元数据,综合了高层语义特征和低层视觉特征;通过用户反馈信息来训练系统,和未使用元数据辅助的方法想比较,提高了视频匹配结果的精确度5%~10%。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号