首页> 中国专利> 一种针对非等长视频手势识别的张量分解方法

一种针对非等长视频手势识别的张量分解方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种针对非等长视频手势识别的张量分解方法，包括：将一个原始的视频表示成一个三阶张量其中I1，I2和T分别表示为一个视频的宽度、高度和视频帧数，I1×I2表示视频帧的大小；对三阶张量Α进行Tucker分解获得维度减少的核张量求解核张量，通过动态学习更新结果直到算法收敛结果达到最优；重复上述过程将所有的视频表示为相同大小的核张量，即将视频序列缩放到相同尺度；实现非等长条件下张量分解。本发明降低了手势识别的难度，提高了手势识别的准确性，为后续的视频序列分类提供了良好的条件，能够较大程度提升视频序列分类的准确率。

著录项

公开/公告号CN106485212A

专利类型发明专利
公开/公告日2017-03-08

原文格式PDF
申请/专利权人天津大学;
展开▼

申请/专利号CN201610855044.1
发明设计人苏育挺;王慧晶;井佩光;张静;
展开▼

申请日2016-09-26
分类号G06K9/00(20060101);
代理机构12201 天津市北洋有限责任专利代理事务所;
代理人杜文茹
地址 300072 天津市南开区卫津路92号
入库时间 2023-06-19 01:42:42

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-20

未缴年费专利权终止 IPC(主分类):G06K 9/00 专利号:ZL2016108550441 申请日:20160926 授权公告日:20200124

专利权的终止
2020-01-24

授权

授权
2017-04-05

实质审查的生效 IPC(主分类):G06K9/00 申请日:20160926

实质审查的生效
2017-03-08

公开

公开

说明书

技术领域

本发明涉及一种张量分解方法。特别是涉及一种针对非等长视频手势识别的张量分解方法。

背景技术

随着可以获得的视频数量的急剧增加，基于内容的视频分析已经广泛的应用到视频检索、动作识别、视频摘要等。相比于人体的其它部位，手和手指具有很高的灵巧度，因此它是最有效的和通用的与外界交互的方式之一。作为人类动作语义分析中的重要组成部分，手势识别已经获得了广泛的应用。例如在医院就诊中一个手势识别系统可以使医生通过手势去操纵数字图像。

手势识别的目的是对手势视频序列进行正确的分类。尽管已有一些手势识别的工作，但从现实应用的角度设计一个鲁棒、贴近实际应用的手势识别算法仍面临很多挑战。传统的手势识别算法通常将视频序列转换为向量或矩阵的形式，这种处理方式不仅会造成视频中数据点的结构信息的损失，而且还会破坏视频序在时域上的平滑性。由于张量可以很自然的将原始的手势视频序列建模为一个三阶张量的形式。为更好的解决这个问题，最近一些工作从张量分解的角度运用多线性代数解决手势识别问题。张量分解的两种典型的形式为CP分解和Tucker分解。其主要区别在于CP分解是将张量分解为一系列的秩一张量之和的形式，Tucker分解则将张量分解成核张量与一组映射矩阵的模乘形式。然而，基于张量的手势识别算法存在一个基本但却容易被忽视的问题，即所有的视频序列在时域上需要有统一的长度。当前一种最普遍的处理方式是从视频序列中间选择固定长度的视频帧构建新的视频序列，从而使得这些视频序列的长度统一。然而这种处理方式会导致以下的不足之处：1)新构建的视频序列不能够全面的表征手势；2)不能够依靠手势动作中速度的变化去自动的捕获视频序列中的关键帧；3)由于需要预先获知视频的长度，因此并不能有效、实时的应用于实际需求中。

发明内容

本发明所要解决的技术问题是，提供一种能够解决手势视频序列识别问题，提高视频序列分类准确率的一种针对非等长视频手势识别的张量分解方法。

本发明所采用的技术方案是：一种针对非等长视频手势识别的张量分解方法，包括如下步骤：

1)将一个原始的视频表示成一个三阶张量其中I₁，I₂和T分别表示为一个视频的宽度、高度和视频帧数，I₁×I₂表示视频帧的大小；

2)对三阶张量Α进行Tucker分解获得维度减少的核张量

3)求解核张量，通过动态学习更新结果直到算法收敛结果达到最优；

4)重复步骤1)～步骤3)将所有的视频表示为相同大小的核张量，即将视频序列缩放到相同尺度；

5)实现非等长条件下张量分解。

步骤2)所述的三阶张量Α的核张量写为如下形式：

其中，U₃∈R^K×T，令张量F＝Α×₁U₁×₂U₁，则核张量简写为：

步骤3)所述的求解核张量，包括：

(1)初始化：给定原始三阶张量Α，随机初始化矩阵U₁及U₂；

(2)求解张量F：

F＝Α×₁U₁×₂U₁>

(3)求解U₃，为了将视频缩放到相同的尺度，对U₃采用关键帧选择方法，即采用稀疏编码的方法从张量F中选取最优的K个切片构成基，其中，K＜T，再用最优的基重构原始的视频，对张量F按照时间域展开得到矩阵令设定目标函数如下：

其中C为系数矩阵，为从G中选取的K列向量构成的基，定义S_ij＝{0,1}，表示去掉G·S矩阵的全零列后构成的大小为J₁J₂×K的矩阵；目标函数中的第二项λ||C||_2,1为系数矩阵C的约束条件，保证了系数矩阵C稀疏性，第三项保证了视频信息的差异性，即尽可能多的保留原始视频的有效信息；

利用如下的等价关系：

其中W为除对角线以外其余值均为1的矩阵，D为对角矩阵且对角线的值令L＝D-W，则目标函数转化为如下形式：

存在线性映射G＝f(B)，满足：

A₍₃₎＝GU₃＝(BC+E)U₃>

其中E表示误差，则：

U₃＝(BC+E)⁺A₍₃₎>

其中(BC+E)⁺为矩阵BC+E的伪逆；

通过从中随机选择K列初始化基B＝{b₁,…,b_k…,b_K}，再次转化目标函数为如下目标函数：

定义误差函数通过如下函数寻找使得误差函数e(b_k)最小的列b_p，即：

从基B中去掉使得误差函数e(b_k)最小的列b_p得到

令选择一个向量替换掉使得误差函数e(b_k)最小的列b_p，即向量满足如下条件：

然后迭代更新计算基B、系数矩阵C和矩阵S直至算法收敛；

利用U₃＝B⁺G求得U₃，从而得到核张量

步骤5)所述的实现非等长条件下张量分解，是基于Tucker分解的基本形式进行如下过程：

(1)将U₁及U₃作为已知求解U₂；

(2)将U₂及U₃作为已知求解U₁；

(3)重复第(1)～第(2)步直至收敛。

本发明的一种针对非等长视频手势识别的张量分解方法，降低了手势识别的难度，提高了手势识别的准确性，为后续的视频序列分类提供了良好的条件，能够较大程度提升视频序列分类的准确率。

具体实施方式

下面结合实施例对本发明的一种针对非等长视频手势识别的张量分解方法做出详细说明。

本发明的一种针对非等长视频手势识别的张量分解方法，包括如下步骤：