公开/公告号CN103310193A
专利类型发明专利
公开/公告日2013-09-18
原文格式PDF
申请/专利权人 温州聚创电气科技有限公司;
申请/专利号CN201310226685.7
发明设计人 吴自然;
申请日2013-06-06
分类号G06K9/00(20060101);G06K9/62(20060101);
代理机构温州瓯越专利代理有限公司;
代理人于艳玲
地址 325000 浙江省温州市瓯海区东方路38号(大学科技园孵化器1号楼)
入库时间 2024-02-19 20:48:02
法律状态公告日
法律状态信息
法律状态
2016-05-25
授权
授权
2013-10-23
实质审查的生效 IPC(主分类):G06K9/00 申请日:20130606
实质审查的生效
2013-09-18
公开
公开
技术领域
本发明属于数字图像处理和模式识别领域,具体涉及一种记录体操视频中运动员重要技术动作时刻的方法。
背景技术
运动视频的识别分析一直是数字图像处理和模式识别中的热点也是难点。目前的实际中运动视频的识别分析的方法大多是针对特殊的物体,比如网球运动中球的运动轨迹,以达到辅助判定的目的。而针对人体运动的方法还是比较少。由于体育运动中的人的身体动作往往不同于通常的行为,存在有许多特殊性,而且变化比较大,所以需要设计特殊的系统和方法来辨识。
在实践中可针对人体动作分析体育运动的系统,较为著名的是微软用于搭配XBOX360游戏机的Kinect设备。但是这种设备利用的是红外点阵投影仪和传感器获得人体的三维深度图像,在使用中局限性很大,只能再室内小空间内使用。对于很多体育运动的场所,比如球场体育馆等,空间范围很大,红外点阵投影设备很难有效工作。而普通光学摄像机可在绝大多数环境条件下轻松地获得直观的体育图像。不同于红外点阵投影设备的是,单台普通光学相机仅能获得二维图像,需要检测出人体所在的图像区域,在算法上难度大于Kinect设备。
发明内容
本发明的目的在于提供一种对体操视频进行分析记录重要技术动作时刻的方法。
本发明的技术方案为:
一种记录体操视频中运动员重要技术动作时刻的方法,包括以下步骤:
(1)将体操视频转化为一系列的帧;
(2)对步骤(1)中所得的每一帧的图像,利用图像人体检测器检测出完整的人体,得到含有人体的长方形图像窗口,即人体区域;
(3)根据预先定义好的人体姿态集合,对步骤(2)中检测出的人体区域进行人体姿态分类,得到人体姿态估计的结果;
(4)对所有的帧的人体姿态估计结果进行去噪合并,最终得到重要技术动作的时刻记录。
进一步的,所述人体检测器为改进的HOG人体检测器,所述改进是指使用显示部分人体的图像作为反面的训练样本数据。
进一步的,所述人体姿态分类的方法可以采用通用化的距离变换或方向图模板匹配法。
进一步的,步骤(4)具体包括以下子步骤:
(4.1)对于一个视频片段,将所有的帧所对应的姿态的标号(1,2,3...)按照时间顺序排列,形成一个标号序列;将这个流程中的输入序列记为I,输出序列记为O;定义一个平滑窗口,宽度为w;w等于和对该视频片段每秒采样数的1.5倍最接近的奇数;定义u=(w-1)/2;
(4.2)考虑输入序列中的任意一个成员Ii,计算Ii-u到Ii+u这w个成员当中每个姿态类别的总数,记为c1,c2,c3...,如果其中某个类别cj的个数大于w*0.5,则这个成员Ii的对应的输出项Oi的类别标号为j;如果所有类别总数都未超过w*0.5,则将Oi的类别标号记为-1,即表示姿态类别不明;
(4.3)对I中所有成员执行步骤(4.2);
(4.4)对于O中每一个成员,如果Oi=-1而Oi-1或Oi+1≠-1,并且Ii=Oi-1或Oi+1,则将Oi的标号改为Oi-1或Oi+1;
(4.5)O就是这个视频片段的记录;该记录用不同的人体姿态类别标号标记每一帧,重要技术动作可以通过人体姿态类别标号得以体现。
本发明所述的记录体操视频中运动员重要技术动作时刻的方法,使用人体探测器检测出视频中体操运动员的身体位置,并用多种方法在检测框内辨识出运动员的动作状态,捕获重要技术动作的时间点并予以记录,最终得出记录有一套体操动作每个重要技术动作的时间点的时间轴图表。该 方法可以用于辅助评审员评分以及体操视频的归档。目前用于记录描述运动视频的应用工具还很少,该方法在这一领域是一个创新。该方法的人体检测准确率高,对姿态分类估计有一定的纠错能力,有较大的发展潜力和应用价值。
附图说明
图1为记录体操视频中运动员重要技术动作时刻的方法的流程图。
图2为模板示例图。
图3为视频记录图形。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步详细的说明。
如图1所示,本发明提供了一种记录体操视频中运动员重要技术动作时刻的方法,包括以下步骤:
(1)将体操视频一定的帧率转化为一系列的帧。该帧率一般为视频的帧率,通常来说为25或30fps。
(2)对步骤(1)中所得的每一帧的图像,利用图像人体检测器检测出完整的人体,得到含有人体的长方形图像窗口,即人体区域;
其中,人体检测器为改进的HOG人体检测器。改进的方面为:该人体检测器使用了显示部分人体的图像,比如包含有人体上半身或四肢图像,作为反面的训练样本数据,大大降低了检测器在人体部位上产生的误检测率。所述HOG人体检测器是指Navneet Dalal等人(参见文献1:N.Dalal和B.Triggs,“Histograms of Oriented Gradients for Human Detection,”出处2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Volume1,San Diego,CA,USA,2005,pp.886-893.和文献2:N.Dalal,“Finding People in Images and Videos,”PhD Thesis,Institut National Polytechnique De Grenoble,2006.)的方向性梯度直方图(HOG)方法检测器,该方法计算出图像区域内的方向性梯度直方图并以此作为特征,通过支持向量机(SVM)对这些图像区域进行机器学习和分类。
(3)根据一套预定义好的姿态集合,比如附图2中所示的即为一个姿态集合的例子,对检测出的人体区域进行人体姿态分类,得到人体姿态估计的结果;
人体姿态分类的方法可以采用通用化的距离变换和方向图模板匹配法,具体包括:
(3.1)建立若干组人体边缘的模板,每一组模板代表一种人体的姿态;
(3.2)针对每一帧图像,使用N.D.Thanh等人(参见文献3:N.D.Thanh,W.Li和P.Ogunbona,“A Novel Template Matching Method for Human Detection,”16th IEEE International Conference on Image Processing(ICIP),Cairo,Egypt,2009,pp.2549-2552.)提出的GDT&OM法,将所述模板与步骤(2)中检测到的该帧中人体区域进行匹配,将匹配结果最接近的模板所对应的姿态作为该帧中人体的姿态。
还可以根据人体部位坐标进行人体姿态分类,获得人体姿态估计的结果。该过程具体包括:
(A)根据不同姿态的人体部位位置建立对应的若干个模型;
(B)从步骤(2)检测出的人体区域,使用反复解析法获得人体部位位置,将这些位置与姿态分类模型进行比对,获得最接近的姿态,得到人体姿态估计的结果。
(4)对所有的帧的人体姿态估计结果进行去噪合并,最终得到重要技术动作的时刻记录。
根据体操技术的特性在时间轴上用一个定长的窗口对姿态估计的结果进行处理,以达到将相近时间点的估计合并以及去除错误估计结果的目的。该处理过程具体包括:
(4.1)对于一个视频片段,将所有的帧所对应的姿态的标号(1,2,3...)按照时间顺序排列,形成一个标号序列;将这个流程中的输入序列记为I,输出序列记为O;定义一个平滑窗口,宽度为w;w等于和对该视频片段每秒采样数的1.5倍最接近的奇数;定义u=(w-1)/2;
(4.2)考虑输入序列中的任意一个成员Ii,计算Ii-u到Ii+u这w个成员当中每个姿态类别的总数,记为c1,c2,c3...,如果其中某个类别cj的个数大于w*0.5,则这个成员Ii的对应的输出项Qi的类别标号为j。如果所有类别总数都未超过w*0.5,则将Oi的类别标号记为-1,即表示姿态类别不明;
(4.3)对I中所有成员执行步骤(4.2);
(4.4)对于O中每一个成员,如果Oi=-1而Oi-1或Oi+1≠-1,并且Ii=Oi-1或Oi+1,则将Oi的标号改为Oi-1或Oi+1;
(4.5)O就是这个视频片段的记录。该记录用不同的人体姿态类别标号标记每一帧,重要技术动作可以通过人体姿态类别标号得以体现。
实施例:
本发明使用了一组北京及伦敦奥运会上的男子体操吊环视频片段作为实验数据。我们将8个北京奥运会的男子吊环片段作为训练数据,而将伦敦奥运的8个男子吊环片段作为测试数据。每个片段约为1分钟,帧率为每秒30帧。由于原视频分辨率较高需要消耗很长的计算时间,我们将分辨率缩小为480×360或480×270(根据原始长宽比例进行缩放)。具体流程如下:
(1)人体检测:我们使用一个96×96的图像窗口作为检测窗。我们从北京奥运会的视频片段中提取了4101个人体样本作为正面样本。每个人体样本就是一个正中间显示单个体操运动员全身的图片,大小为96×96。同时我们使用了562张非人体图片作为反面数据。这些非人体图片包含的内容包括背景、物品和人的身体部分。训练器将从每张非人体图片中随机提取20个正方形区域并等长宽比地缩放为96×96大小,作为反面样本。所以反面样本的总数为11240个。模型训练的流程如下:
a.使用HOG和SVM的算法根据正面和反面样本训练出一个初步的分类模型。
b.将a中所得的分类模型应用到反面数据的图片上,获得若干伪检测。将这些伪检测区域认为是“困难的”分类样本,并添加到反面样本中去。
c.再重新根据正面和反面样本训练一个最终的分类模型。
将该分类模型运用于伦敦奥运吊环的片段中去,得到了接近95%的真正面检测率(true positive rate,TPR)和低于1.20×10-4的伪正面检测率(false positive rate,FPR)。
(2)姿态估计:我们使用了一组轮廓边缘模板(如图2所示)进行姿态估计,得到了所有帧的姿态估计。我们取其中一个片段的结果作为例子,见图3,其中纵轴代表技术动作的分类编号,横轴代表时间。
(3)去噪合并:去噪窗口的大小为45帧,如图3所示。
最终8个视频片段中共有89个重要技术动作,我们检测出了80个,同时有17个检测错误。具体结果见表1,纵向标号代表真实的姿态类别,横向标号代表检测出的姿态类别。
表1:错误的姿态检测
机译: 提供一种与视频图像中的对象状态相对应的相关动作的方法,提供用于该方法的相同和记录媒体记录程序的装置
机译: 用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法,该方法具有用于生成视频信号的装置,该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率,每个帧图像由多个扫描线组成,扫描线由多个像素组成,图像中的每个像素由彩色数字分量组成(该方法包括确定功能的步骤);基于彩色数字(b)的三个分量中的至少一个的亮度像素,基于两个像素之间的亮度差异,针对当前图像表的扫描线中的至少大部分像素,确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素,以及至少(c)比较决策参数与
机译: 一种用于将数据压缩的视频信号存储在存储器中,检索所存储的数据压缩的视频信号,以及在纵向记录载体上记录和回放数据压缩的视频信号的方法和装置。在纵向记录载体上存储和还原数字视频信号的记录和再现,