首页> 中国专利> 一种体育视频中对参赛运动员进行多人脸跟踪的方法

一种体育视频中对参赛运动员进行多人脸跟踪的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种体育视频中对参赛运动员进行多人脸跟踪的方法，包括以下步骤：预训练针对人脸识别的卷积神经网络；对输入视频进行镜头分割，选出所有近景镜头片段；对近景镜头中每幅图像进行人脸检测，得到人脸检测响应；关联人脸检测响应形成轨迹片段；根据轨迹片段之间的时空信息限制，生成训练样本；以获得的训练样本作为输入，使用Siamese或Triplet网络对预训练的卷积神经网络进行微调；使用微调后的卷积神经网络，提取每幅人脸图像的特征；分层关联所有轨迹片段，生成人脸运动轨迹。本发明所述方法，从待跟踪视频中在线收集训练样本，对预训练的卷积神经网络进行微调，从而在线学习更具判别性的人脸特征，进而使用该特征进行更加有效地多人脸跟踪。

著录项

公开/公告号CN106022220A

专利类型发明专利
公开/公告日2016-10-12

原文格式PDF
申请/专利权人西安北升信息科技有限公司;
展开▼

申请/专利号CN201610301411.3
发明设计人王进军;张顺;姜思宇;
展开▼

申请日2016-05-09
分类号G06K9/00(20060101);G06K9/62(20060101);
代理机构61200 西安通大专利代理有限责任公司;
代理人闵岳峰
地址 710075 陕西省西安市高新区沣惠南路18号西格玛大厦10201-224-26室
入库时间 2023-06-19 00:38:30

法律信息

法律状态公告日

法律状态信息

法律状态
2020-02-28

授权

授权
2018-02-02

专利申请权的转移 IPC(主分类):G06K9/00 登记生效日:20180112 变更前: 变更后: 申请日:20160509

专利申请权、专利权的转移
2016-11-09

实质审查的生效 IPC(主分类):G06K9/00 申请日:20160509

实质审查的生效
2016-10-12

公开

公开

说明书

技术领域：

本发明属于视频处理与计算机视觉领域，具体涉及一种体育视频中对参赛运动员进行多人脸跟踪的方法。

背景技术：

多目标跟踪是指对视频序列中多个感兴趣的目标进行定位、跟踪，并且推测每个目标的轨迹。多目标跟踪作为计算机视觉领域中的一个重要课题，在视频监控、目标识别、视频信息发现等方面有重要的价值。

在体育视频中的多人脸跟踪是指，对视频中每个参赛运动员的脸部进行定位，同时进行跟踪，最终生成每个参赛运动员的人脸运动轨迹。体育视频中的多人脸跟踪方法作为一个基础技术，可应用于运动员的身份识别、体育视频的内容分析等更高层次的任务中，有着极其重要的商业应用价值。

与监控视频中的多目标跟踪问题相比，体育视频中的多目标跟踪问题更具有挑战性。首先，体育视频是由多个摄像机从不同角度对比赛场地进行拍摄的镜头拼接制作而成，相邻两个镜头会存在快速的图像切换或渐变转换等情况。其次，同一个参赛员在不同镜头下具有复杂的姿态、光照、及尺度等方面的变化，这给人脸跟踪问题造成了极大的困难。最后，体育视频中存在着具有相似外观的人脸目标，这给多人脸跟踪技术增加了困难。

在现有的体育视频相关专利中，没有对各个参赛运动员的人脸进行跟踪的方法。本发明能够弥补这一空缺，准确地对视频中的多个人脸进行定位和跟踪，生成各个运动员的人脸跟踪轨迹。

发明内容：

为了克服现有技术的不足，本发明提供了一种体育视频中对参赛运动员进行多人脸跟踪的方法。该方法可以对视频中多个参赛运动员的脸部同时进行可靠地定位与跟踪，生成精确的人脸运动轨迹。

为达到上述目的，本发明采用如下技术方案来实现的：

一种体育视频中对参赛运动员进行多人脸跟踪的方法，包括以下步骤：

1)在包含不少于3000个不同人脸类别的离线人脸数据集上，使用监督式方法预先训练一个针对人脸识别的卷积神经网络模型；

2)通过检测视频中的镜头切换，将输入视频分割成无重叠的镜头片段，并选择出所有近景的镜头片段；

3)在每个近景的镜头片段中，使用人脸检测器对每一幅图像进行人脸检测，得到人脸检测响应；

4)在每个近景的镜头片段中，将相邻几帧图像中相似度高的人脸检测响应关联为轨迹片段；

5)在所得到的轨迹片段中，根据时空信息限制，生成正负两类训练样本；

6)以获得的正负训练样本作为输入，使用Siamese或Triplet网络对1)中预训练的卷积神经网络进行微调，在线学习更具区分性和适应性的人脸特征；

7)使用微调后的卷积神经网络，提取每个轨迹片段中每幅图像的人脸特征；

8)分层关联所有轨迹片段，生成最终的人脸运动轨迹。

本发明进一步的改进在于，所述步骤1)中，卷积神经网络的结构为输入层-卷积和采样层-输出层，输入层是输入的人脸图像，卷积和采样层包括卷积处理和Max Pooling处理，输出层的每个神经元对应一个人脸类别。

本发明进一步的改进在于，所述步骤5)中，正训练样本是来自同一个轨迹片段中的两张人脸图像，负训练样本是分别来自两个不同轨迹片段的两张人脸图像，其中这两个轨迹片段在某一帧图像中同时出现；

正负训练样本以三元一组的方式组合：两张人脸图像来自同一个轨迹片段，第三张人脸图像来自另一个轨迹片段，其中这两个轨迹片段在某一帧图像中同时出现。

本发明进一步的改进在于，所述步骤6)中，Siamese网络由结构相同且权值共享的两个卷积神经网络组成，以两张人脸图像作为输入，使用对比损失函数；

Triplet网络由结构相同且权值共享的三个卷积神经网络组成，以三元一组的方式作为输入，使用的是Triplet损失函数。

本发明进一步的改进在于，所述步骤8)中，分两步关联人脸轨迹片段，第一步是在每个镜头片段中，使用多目标跟踪方法，根据目标的运动信息和学习得到的判别性人脸特征关联轨迹片段；第二步是仅利用学习得到的人脸特征，使用层次化合并聚类的方法，关联不同镜头下的轨迹片段，生成最终的人脸目标轨迹。

与现有技术相比，本发明具有以下有益效果：

本发明所述的基于人脸识别的多目标跟踪方法，从待跟踪视频中在线收集训练样本，来对预先训练的人脸卷积神经网络进行微调，从而在线学习更具判别性的人脸特征，进而使用该特征进行更加有效地多人脸跟踪。

附图说明：

图1为本发明的流程示意图。

具体实施方式：

下面结合附图对本发明做进一步详细描述：

参考图1，本发明所述的基于人脸识别的体育视频中多目标跟踪的方法，包括以下步骤：

1)在包含大量人脸类别的离线人脸数据集上，使用监督式方法预先训练一个针对人脸识别的卷积神经网络模型。卷积神经网络的结构为“输入层‐卷积和采样层‐输出层”，输入层是输入的人脸图像，卷积和采样层包括卷积处理和MaxPooling处理，输出层的每个神经元对应一个人脸类别。

2)通过检测视频中的镜头切换，将输入视频分割成无重叠的镜头片段。根据人脸占正幅图像的比例，及人脸与比赛场地参考物(如草地、球场线等)的关系，选择出所有近景的镜头片段。

3)在每个近景的镜头片段中，使用公开发布的人脸检测器对每一幅图像进行人脸检测，得到人脸检测响应。

4)在每个近景的镜头片段中，将相邻几帧图像中相似度高的人脸检测响应关联为轨迹片段。

5)在所得到的轨迹片段中，根据时空信息限制，生成正负两类训练样本。

正训练样本是来自同一个轨迹片段中的两张人脸图像。负训练样本是分别来自两个不同轨迹片段的两张人脸图像，其中这两个轨迹片段在某一帧图像中同时出现。令表示长度为n_i的轨迹片段，x表示一张人脸检测响应，则正训练样本若T_i和T_j表示在同一帧中出现过的两个不同的轨迹片段，则负训练样本

正负训练样本可以进一步以三元一组(Triplet)的方式组合：两张人脸图像来自来自同一个轨迹片段，第三张人脸图像来自另一个轨迹片段，其中这两个轨迹片段在某一帧图像中同时出现。令T_i和T_j表示在同一帧中出现过的两个不同的轨迹片段，则可以从T_i和T_j中生成训练样本s,

6)以获得的训练样本作为输入，使用Siamese或Triplet网络对1)中预先训练的卷积神经网络进行微调，在线学习更具区分性和适应性的人脸特征。

Siamese网络由结构相同且权值共享的两个卷积神经网络组成，以两张人脸图像作为输入，使用对比损失函数。Siamese网络中，人脸特征的提取过程可以表示为f(x)＝Conv(x；w),其中Conv(·)为映射函数，x∈R^227×227×3是输入的人脸图像，f(x)表示提取到的特征向量。令x₁,x₂表示两个训练样本图像，则表示两张图像特征向量的距离。在训练中使用以下对比损失函数来减小两张相同目标的图像间的距离，同时增大两张不同目标图像间的距离：

$> L_{P} = \frac{1}{2} (y \cdot d_{f}^{2} + (1 - y) \cdot m a x (0, τ - d_{f}^{2})$ >

其中，τ为裕度(margin)。y＝1表示两张图像来自同一目标，y＝0表示两张图像来自不同目标。

Triplet网络由结构相同且权值共享的三个卷积神经网络组成，以三元一组的方式作为输入，使用的是Triplet损失函数。在训练中，对一组输入样本需要使正训练样本对间的距离小于负训练样本对间的距离。以下为Triplet网络的损失函数：

$> L_{t} = \underset{i, j, k, l}{Σ} [| | f (x_{i}^{k}) - f (x_{i}^{l}) | |_{2}^{2} - | | f (x_{i}^{k}) - f (x_{j}^{m}) | |_{2}^{2} + α]$ >

其中α为距离裕度。

7)使用微调后的卷积神经网络，提取每个轨迹片段中每幅人脸图像的人脸特征。

分两步关联人脸轨迹片段。第一步是在每个镜头片段中，使用传统的多目标跟踪方法，根据目标的运动信息和学习得到的判别性人脸特征关联轨迹片段。第二步是仅利用学习得到的人脸特征，使用层次化合并聚类的方法，关联不同镜头下的轨迹片段，生成最终的人脸目标轨迹。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种体育视频中对参赛运动员进行多人脸跟踪的方法 [P] . 中国专利： CN106022220B . 2020.02.28
2. 一种体育视频中对参赛运动员进行多人脸跟踪的方法 [P] . 中国专利： CN106022220A . 2016-10-12
3. APPARATUS FOR RECOGNIZING SPORTS PLAYERS IN SPORTS BROADCASTING VIDEO AND METHOD THEREOF [P] . 韩国专利： KR20170107287A . 2017-09-25

机译：在体育广播视频中识别体育运动员的装置及其方法
4. Units of guidance to guide a video image viewing a stadium.The description of the framework to describe a picture displaying a stadium and deployment to deploy an image in a frame on a surface inside a stadium and processes to establish aThe image in a frame on a surface inside a stadium, and guide and describe a framework by visualizing a stadium [P] . BR9610721A . 1999-12-21

机译：指导观看体育场的视频图像的指导单位。框架的描述，用于描述显示体育场的图片以及在体育场内的表面上将图像部署在框架中并进行部署的过程，以在体育场内的框架中建立图像。体育场内的表面，并通过可视化体育场来指导和描述框架
5. SYSTEM AND METHOD FOR OPTICAL TRACKING FOR PLAYERS IN SPORTS FACILITIES [P] . 俄罗斯专利： RU2017116214A . 2018-11-12

机译：在体育设施中对运动员进行光学跟踪的系统和方法