首页> 中国专利> 足球视频远景镜头中对足球位置的自动检测方法

足球视频远景镜头中对足球位置的自动检测方法

摘要

本发明提供一种足球视频的远景镜头中对足球位置的自动检测方法。该方法,首先对足球视频中的远景镜头部分进行解码,得到连续的远景镜头帧;然后,对远景镜头帧图像进行处理,提取球场部分;然后综合颜色信息,建立对处理之后图像的二值显著图;再在此二值显著图上,根据球的形状以及尺寸等检测特征进行检测,找出所有的足球近似物体;之后再利用之前帧检测出的足球位置对当前帧的足球近似物进行分析以及预测,找到足球的位置。本发明的检测方法综合各种空间信息,同时利用连续帧在时间上的相关性,使得检测结果具有较高的准确性。并且整个检测过程都是实时进行,完全符合足球视频在便携终端上实时直播的应用要求,具有较大的应用价值。

著录项

  • 公开/公告号CN101645137A

    专利类型发明专利

  • 公开/公告日2010-02-10

    原文格式PDF

  • 申请/专利权人 中国科学院声学研究所;

    申请/专利号CN200910089438.0

  • 申请日2009-07-17

  • 分类号G06K9/54(20060101);H04N7/26(20060101);

  • 代理机构11318 北京法思腾知识产权代理有限公司;

  • 代理人杨小蓉

  • 地址 100190 北京市海淀区北四环西路21号中国科学院声学研究所

  • 入库时间 2023-12-17 23:22:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-09-07

    未缴年费专利权终止 IPC(主分类):G06K9/54 授权公告日:20120704 终止日期:20150717 申请日:20090717

    专利权的终止

  • 2012-07-04

    授权

    授权

  • 2010-04-14

    实质审查的生效 IPC(主分类):G06K9/54 申请日:20090717

    实质审查的生效

  • 2010-02-10

    公开

    公开

说明书

技术领域

本发明涉及在足球视频中对足球位置的自动检测,具体的说,是涉及对足球视频的远景镜头中对足球位置的自动检测方法。

背景技术

足球作为全球最流行的球类体育项目之一,一直拥有广大的参与和关注群体,而其蕴含的巨大商业价值也使得人们对足球视频进行着不断的研究。其中对足球视频的自动分析是一个主要的方面,具体包括对视频的检索、总结、检测、加强等方面,进而进行语义层次上的理解,比如战术和场上形式分析等等。而鉴于足球总是场上的焦点,对于足球位置的检测便成了上述分析的一个首先需要解决的问题了,而对其检测的准确性也将直接影响着之后的应用。另一方面,随着便携移动终端的流行,能够随时随地在移动终端上观看到足球比赛直播,对广大的足球爱好者无疑具有很强的诱惑力。但是在小屏幕上欣赏足球比赛,特别是比赛中的远景镜头,观众的视觉体验和观赏感受是无法保障的。解决的一个方法便是只播放视频画面中观众感兴趣区域,而这个感兴趣区域也是以足球的位置为中心的。

足球视频作为一种具体的视频类别,有其自身的特点。比如球员和球的活动基本上都是在足球场上进行的,而球场有特定的颜色。比如足球也有具体的大小颜色形状。另外,足球视频镜头的分类,一般有三种:远景镜头、中景镜头和近景镜头。其中,在中景镜头和近景镜头中,足球都是比较大,位置也相对容易确定。而在远景镜头中,足球的尺寸相对于整个镜头来说是很小的,在一些运动很快的镜头中,足球形状也不是近似圆形的。而且相对于足球,镜头里的背景物体也很复杂,引入了很多噪声会对足球的检测造成强烈的干扰。以前的很多检测方法在这种情况下是无法满足要求的。然而在我们的应用中,在小屏幕的足球视频欣赏中,主要就是远景镜头部分给观众的理解造成困难,解决的方法也是只播放远景镜头画面的感兴趣区域部分。

另外,当前的足球检测技术都是针对相对较大的足球检测,也就是多在中景镜头中能够较好的检测结果。而对于远景镜头,足球尺寸更小形状更不规则,背景更加复杂,噪声干扰更加严重,这些方法的检测成功率就很难保证了。而有一类专门的利用圆形哈夫变换来检测圆形的足球检测方法在远景镜头中就更加不适用了。另外,针对足球视频在移动终端的播放以足球比赛的直播最能吸引用户的兴趣,而直播的要求之一便是实时性。还有一类足球的检测方法是先简单检测一定数量帧再跟踪足球的轨迹,这种方法在实时性上无法满足直播的要求。

发明内容

本发明的目的在于提供一种针对足球视频中的远景镜头,自动检测出足球位置的足球视频的远景镜头中对足球位置的自动检测方法。该检测方法综合各种空间信息,利用连续帧在时间上的相关性,确保检测结果具有较高的准确性。并且整个检测过程都是实时进行,完全符合足球视频在便携终端上实时直播的应用要求,具有较大的应用价值。

为了实现以上目的,本发明的一种足球视频的远景镜头中对足球位置的自动检测方法,其特征是,包括如下步骤:

1)对足球视频中的远景镜头部分进行解码,得到连续的远景镜头帧;

通常,目前的足球视频均经过了mpeg、H.264等编码,利用ffmpeg就可以解码成连续的帧。至于对镜头类型的确定,对当前帧的区域进行黄金分割,在各区域内考察其属于草地颜色的像素所占的比例。

2)对远景镜头帧图像进行处理,提取球场部分:

根据对连续多个帧(例如,30帧)画面上的主区域颜色的统计得到主颜色,由于足球视频中大多帧的主要部分就是球场,依照这个主颜色值便可以确定球场的大体颜色,进而提取图像的球场部分;

这里,例如可以采用HSV颜色模型,因为HSV颜色模型跟人的感知更加切合,也适合于分辨不同的色彩。其色彩分量(Hue)能独立的表现不同亮度情况下的色彩,这样就可以排除球场在不同天气、灯光情况的干扰。

3)建立对处理之后图像的二值显著图(Binary Saliency Map):

基于人视觉神经系统特征,将对颜色几个不同方面的特征描述集中成一个统一的量度;

这里,可以利用亮度特征、红绿对比特征以及黄蓝对比特征来构建显著图。除此之外,画面上的方向、纹理信息特征等也能适当加以利用。

上述亮度特征、红绿对比特征以及黄蓝对比特征的提取方法分别如下公式计算:

SI(i,j)=max(m,n)Θd[I(i,j),I(m,n)]

SRG(i,j)=max(m,n)Θd[R(i,j)-G(i,j),R(m,n)-G(m,n)]

SBY(i,j)=max(m,n)Θd[B(i,j)-Y(i,j),B(m,n)-Y(m,n)]

其中Θ是画面(i,j)位置的邻域(在远景镜头中,我们一般采取3x3大小的邻域),d代表两个特征值的差异,I,R,G,B和Y分别表示该像素位置的亮度、红、绿、蓝、黄几个特征。这三个特征加权综合:

S(i,j)=λIS1(i,j)+λRGSRG(i,j)+λBYSBY(i,j)

其中,λ1,λRG,λBY是加权因子。

一般来说,亮度和黄绿对比特征是比较重要的,因为球的颜色大体是近似黄色或者白色,而球场的颜色偏绿。然而,强调这两个特征时,球场的球员的某部分被划分开来的可能性会更大,会对球的检测造成干扰。因此,这里将三个加权因子设为等值。

由此,得到了此帧图像的显著图,之后经过去噪、灰度调整、二值化和区域填充之后便得到二值显著图。

4)在此二值显著图上,根据球的检测特征进行检测,找出所有的足球近似物体;

这里,球的检测特征具体包括:

a)尺寸:首先排除不可能是球的显然过大或者过小尺寸的物体,然后根据剩余物体的平均大小来确定足球大小可能的范围,一般选取平均值的二分之一到二倍的大小区间,之后采用统计学习的方法,每连续100帧的前20帧的检测结果用于更新得到更准确的球尺寸;

b)位置:所有过于靠近边界的位置一般都是检测噪声,画面左上右上的固定位置一般是时间和转播电视台的图标,这些位置予以排除;

c)检测物体区域面积和最小外接矩形的比值:

RRegion_to_MBR=AreaRegion/AreaMBR

其中,AreaRegion代表检测物体区域的面积,AreaMBR代表最小外接矩形的面积,

该比值RRegion_to_MBR通常大于等于0.6,如低于这个值则认为不可能是足球,予以排除;

d)检测物体区域面积和最小外接多边形的比值:用于考察待检测物体的形状的紧凑型、跟圆形的相似性,

RRegion_to_MBP=AreaRegion/AreaMBP

其中,AreaRegion代表检测物体区域的面积,AreaMBP代表最小外接多边形的面积,

该比值RRegion_to_MBP通常大于等于0.8,如低于这个值则认为不可能是足球,予以排除;

e)物体区域和圆形的近似度:用于检测物体在形状上是否类似足球,

RC_to_MBR=AreaC/AreaMBR

其中,Areac=Σ(i,j)RegionI(i,j)*Maskcircle(i,j)

MaskCircle(i,j)=1if(i,j)Area_circle0otherwise

这里,Area_circle代表以物体区域的质心为圆心的圆形区域,其面积和物体区域面积相等,得到其半径:

Radius=Area/π

AreaC代表所检测的物体在于其质心重合的等面积圆形区域Area_circle之内的面积,AreaMBR代表最小外界矩形的面积,

该物体区域和圆形的近似度RC_to_MBR通常大于等于0.55,如低于这个值则认为不可能是足球,予以排除;

上述c)、d)和e)三项特征指标为形状特征,

根据以上各特征,对球场上的物体逐个检查排除,剩下来的所有物体作为足球近似物体。

5)基于步骤4)的检测结果,并利用之前帧的检测结果,针对所有检测出来的足球近似物体进行处理,对球的位置进行确定或者预测:

a)如果检测出多于一个足球近似物,则对这些物体分别与之前帧所检测出来的足球在位置和尺寸上分别进行比较,求出位置和形状上的差异之和:D=D1+D2,其中D1是指检测出来的近似物和前一帧的位置距离,D2是指两者之间的面积差异,然后找出差异之和D值最小的物体作为最佳的近似物,接着进入情况b);

b)如果检测出一个足球近似物,则对这个物体与之前帧所检测出来的足球进一步在位置和尺寸上进行判断,如果该物体与之前帧检测出的足球的位置在纵轴和横轴方向上的距离分别小于该帧图像的高度和宽度的十分之一;并且,该物体的尺寸面积在所检测出来的球的面积的三分之一到三倍之间,则判定该物体即为足球,否则,如果不满足如上所有条件的话,则进入情况c);

c)如果检测的结果是没有一个物体近似足球,则根据之前所有帧的检测结果,通过卡尔曼滤波预测出当前帧的足球位置,该预测位置之上或者就近位置的球员或者形状规则且尺寸跟球员相近的较大物体就确定为足球的位置范围所在;如果预测位置附件没有物体存在,则以上一帧足球位置为此帧位置,后一帧重新开始检测;如果预测位置附近的物体形状不规则并且尺寸相差较大的话,则表明足球被其他物体所遮挡,判断预测位置为足球位置,后一帧重新开始检测。

因为在球场上,很多情况球都是跟球员重合或者被球员遮住了,这样找到精确的足球位置是很困难,同时也是没有必要的。需要指出的是,预测位置附近必须得有物体存在才能算是可以确定足球位置范围的,否则便指定前一帧检测到得足球位置为当前帧的足球位置,下一帧再重新开始新的检测。

本发明的足球视频的远景镜头中对足球位置的自动检测方法的有益效果在于:先对远景镜头帧进行处理,提取其球场部分,然后综合颜色信息,建立二值显著图,再在检测这个二值显著图上物体的形状、尺寸等信息,找出球的近似物,之后再利用之前帧检测出的足球位置对当前帧的足球近似物进行分析以及预测,找到足球的位置。本发明的检测方法综合了各种空间信息,也利用了连续帧在时间上的相关性,使得检测结果具有较高的准确性。并且整个检测过程都是实时进行的,也完全符合足球视频在便携终端上实时直播的应用要求,具有较大的应用价值。

附图说明

图1是本发明的足球视频远景镜头中足球位置的自动检测方法的总体流程图。

图2是本发明的足球视频远景镜头中足球位置的自动检测方法中的根据图像检测结果对足球位置进行判断或预测的具体流程图。

具体实施方式

下面结合附图和具体的实施方式对本发明的足球视频远景镜头中足球位置的自动检测方法作进一步详细描述。

图1是本发明的足球视频远景镜头中足球位置的自动检测方法总体流程图。图2是本发明的足球视频远景镜头中足球位置的自动检测方法中的根据图像检测结果对足球位置进行判断或预测的具体流程图。

如图1和图2所示,本发明的足球视频远景镜头中足球位置的自动检测方法,针对远景镜头帧,首先进行预处理,提取出球场部分,建立二值显著图。然后对二值图上的物体进行逐一检测,找出大小形状上跟足球比较相像的近似物,然后对这些检测结果进行分析处理,决定足球的位置。具体包括如下步骤:

1)对足球视频中的远景镜头部分进行解码,得到连续的远景镜头帧;

通常,目前的足球视频均经过了mpeg、H.264等编码,利用ffmpeg就可以解码成连续的帧。至于对镜头类型的确定,对当前帧的区域进行黄金分割,在各区域内考察其属于草地颜色的像素所占的比例。

2)对远景镜头帧图像进行处理,提取球场部分:

例如,根据对连续30帧画面上的主区域颜色的统计得到主颜色,由于足球视频中大多帧的主要部分就是球场,依照这个主颜色值便可以确定球场的大体颜色,进而提取图像的球场部分;这里,提取球场部分的方法,可以采用HSV颜色模型,因为HSV颜色模型跟人的感知更加切合,也适合于分辨不同的色彩。其色彩分量(Hue)能独立的表现不同亮度情况下的色彩,这样就可以排除球场在不同天气、灯光情况的干扰。例如,可采用文献Keewon Seo和Jaeseung Ko,”An intelligent display schemeof soccer video on mobile devices,”in IEEE Transactions On Circuits and Systems ForVideo Technology,vol.17,NO.10,Oct.2007中描述的方法:在HSV颜色模型中,统计球场主颜色的直方图特性,得到球场颜色的HSV判定方法。然后再以每16x16像素块为单位,以某个阈值做判定依据,将每个像素块划分为球场部分块和非球场块。最后根据像素块周围的情况,决定是否位于球场。这样便能简单的确定画面的球场部分和非球场部分了。

3)建立对处理之后图像的二值显著图(Binary Saliency Map):

基于人视觉神经系统特征,将对颜色几个不同方面的特征描述集中成一个统一的量度;

这里,可以利用亮度特征、红绿对比特征以及黄蓝对比特征来构建显著图。除此之外,画面上的方向、纹理信息特征等也能适当加以利用。

本实施例中,采用亮度特征、红绿对比特征以及黄蓝对比特征来构建显著图。此时,上述亮度特征、红绿对比特征以及黄蓝对比特征的提取方法分别如下公式计算:

SI(i,j)=max(m,n)Θd[I(i,j),I(m,n)]

SRG(i,j)=max(m,n)Θd[R(i,j)-G(i,j),R(m,n)-G(m,n)]

SBY(i,j)=max(m,n)Θd[B(i,j)-Y(i,j),B(m,n)-Y(m,n)]

其中Θ是画面(i,j)位置的邻域(在远景镜头中,我们一般采取3x3大小的邻域),d代表两个特征值的差异,I,R,G,B和Y分别表示该像素位置的亮度、红、绿、蓝、黄几个特征。这三个特征加权综合:

S(i,j)=λIS1(i,j)+λRGSRG(i,j)+λBYSBY(i,j)

其中,λI,λRG,λBY是加权因子。

一般来说,亮度和黄绿对比特征是比较重要的,因为球的颜色大体是近似黄色或者白色,而球场的颜色偏绿。然而,强调这两个特征时,球场的球员的某部分被划分开来的可能性会更大,会对球的检测造成干扰。因此,这里将三个加权因子设为等值。

由此,得到了此帧图像的显著图,之后经过去噪、灰度调整、二值化和区域填充之后便得到二值显著图。

4)在所述二值显著图上,根据球的检测特征进行检测,找出所有的足球近似物体,在每一帧上找到可能是球的物体;

这里,球的检测特征包括:

a)尺寸:首先排除不可能是球的显然过大或者过小尺寸的物体,然后根据剩余物体的平均大小来确定足球大小可能的范围,一般选取平均值的二分之一到二倍的大小区间,之后采用统计学习的方法,每连续100帧的前20帧的检测结果用于更新得到更准确的球尺寸;

这里,首先利用尺寸信息,先排除这一帧画面上尺寸明显不可能是球的物体(尺寸过大或过小),然后再求得剩下物体大小的平均值,利用这个平均值确定球大小可能的区间(即尺寸大于这个平均值的一半小于平均值的一倍),对球进行初步的检测排除。

b)位置:所有过于靠近边界的位置一般都是检测噪声,画面左上右上的固定位置一般是时间和转播电视台的图标,这些位置予以排除;

c)检测物体区域面积和最小外接矩形的比值:

RRegion_to_MBR=AreaRegion/AreaMBR

其中,AreaRegion代表检测物体区域的面积,AreaMBR代表最小外接矩形的面积,

该比值RRegion_to_MBR通常大于等于0.6,如低于这个值则认为不可能是足球,予以排除;

d)检测物体区域面积和最小外接多边形的比值:用于考察待检测物体的形状的紧凑型、跟圆形的相似性,

RRegion_to_MBP=AreaRegion/AreaMBP

其中,AreaRegion代表检测物体区域的面积,AreaMBP代表最小外接多边形的面积,

该比值RRegion_to_MBP通常大于等于0.8,如低于这个值则认为不可能是足球,予以排除;

e)物体区域和圆形的近似度:用于检测物体在形状上是否类似足球,

RC_to_MBR=AreaC/AreaMBR

其中,Areac=Σ(i,j)RegionI(i,j)*Maskcircle(i,j)

MaskCircle(i,j)=1if(i,j)Area_circle0otherwise

这里,Area_circle代表以物体区域的质心为圆心的圆形区域,其面积和物体区域面积相等,得到其半径:

Radius=Area/π

AreaC代表所检测的物体在于其质心重合的等面积圆形区域Area_circle之内的面积,AreaMBR代表最小外界矩形的面积,

该物体区域和圆形的近似度RC_to_MBR通常大于等于0.55,如低于这个值则认为不可能是足球,予以排除;

上述c)、d)和e)三项特征指标为形状特征,

根据以上各特征,对球场上的物体逐个检查排除,剩下来的所有物体作为足球近似物体。

上述步骤4)中,对球场的检测方法主要是依靠大小、位置以及形状特征等,本发明在依据a)尺寸和b)位置特征的基础上,进一步利用形状特征:c)检测物体区域面积和最小外接矩形的比值、d)检测物体区域面积和最小外接多边形的比值以及e)物体区域和圆形的近似度,对球场上的物体逐个检查排除,确定可能是球的物体。本发明会每100帧检测会重新对检测结果进行统计,得出最近的球大小数据,依靠这些数据再对球进行更准确的检测。

5)基于步骤4)的检测结果,并利用之前帧的检测结果,针对所有检测出来的足球近似物体进行处理,对球的位置进行确定或者预测:

a)如果检测出多于一个足球近似物,则对这些物体分别与之前帧所检测出来的足球在位置和尺寸上分别进行比较,求出位置和形状上的差异之和:D=D1+D2,其中D1是指检测出来的近似物和前一帧的位置距离,D2是指两者之间的面积差异,然后找出差异之和D值最小的物体作为最佳的近似物,接着进入情况b);

b)如果检测出一个足球近似物,则对这个物体与之前帧所检测出来的足球进一步在位置和尺寸上进行判断,如果该物体与之前帧检测出的足球的位置在纵轴和横轴方向上的距离分别小于该帧图像的高度和宽度的十分之一;并且,该物体的尺寸面积在所检测出来的球的面积的三分之一到三倍之间,则判定该物体即为足球,否则,如果不满足如上所有条件的话,则进入情况c);

c)如果检测的结果是没有一个物体近似足球,则根据之前所有帧的检测结果,通过卡尔曼滤波预测出当前帧的足球位置,该预测位置之上或者就近位置的球员或者形状规则且尺寸跟球员相近的较大物体就确定为足球的位置范围所在;如果预测位置附件没有物体存在,则以上一帧足球位置为此帧位置,后一帧重新开始检测;如果预测位置附近的物体形状不规则并且尺寸相差较大的话,则表明足球被其他物体所遮挡,判断预测位置为足球位置,后一帧重新开始检测。

因为在球场上,很多情况球都是跟球员重合或者被球员遮住了,这样找到精确的足球位置是很困难,同时也是没有必要的。需要指出的是,预测位置附近必须得有物体存在才能算是可以确定足球位置范围的,否则便指定前一帧检测到得足球位置为当前帧的足球位置,下一帧再重新开始新的检测。

图2是本发明的足球视频远景镜头中足球位置的自动检测方法中的根据图像检测结果对足球位置进行判断或预测的具体流程图。如图2所示,该算法结构框图更加准确的描述了步骤5)中对足球位置的判断或预测方法。

其中,由于在球场上足球的运动可以看成是一个典型的马尔科夫过程,当前帧足球位置是可以将所有的足球近似物跟前一帧的检测到的足球位置相比较,得出当前最佳物体位置。这个判决条件就是位置和形状的差异:D=D1+D2

D1是指检测出来的物体和前一帧的位置距离,D2是指两者之间的面积差异。

如图2所示,对于球场情况复杂、足球严重变形或者其他无法检测出足球的画面--即当等式中的结果D过大时,首先依靠之前帧所检测到得足球信息,卡尔曼滤波预测出当前帧的足球位置。该位置之上或者就近位置的球员或者其他尺寸与球员相近的规则物体都可能是足球的范围所在,本发明把球和球员的整体位置视为球的位置范围。但如果尺寸很大,而可能是其他检测噪声,把预测位置作为检测到的位置,下一帧再重新开始检测。需要指出的是,预测位置附近必须得有物体存在才能算是可以确定范围。否则就直接采用前一帧的检测结果,之后再重新开始这个检测过程。作这些检测位置的指定是针对少数无法检测成功的镜头,可以看出所指定的位置都是在足球位置的附近,也就是说是在远景镜头的感兴趣区域内的,这样也是为了更方便于这个应用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号