法律状态公告日
法律状态信息
法律状态
2022-09-20
未缴年费专利权终止 IPC(主分类):G06K 9/00 专利号:ZL2016108550441 申请日:20160926 授权公告日:20200124
专利权的终止
2020-01-24
授权
授权
2017-04-05
实质审查的生效 IPC(主分类):G06K9/00 申请日:20160926
实质审查的生效
2017-03-08
公开
公开
技术领域
本发明涉及一种张量分解方法。特别是涉及一种针对非等长视频手势识别的张量分解方法。
背景技术
随着可以获得的视频数量的急剧增加,基于内容的视频分析已经广泛的应用到视频检索、动作识别、视频摘要等。相比于人体的其它部位,手和手指具有很高的灵巧度,因此它是最有效的和通用的与外界交互的方式之一。作为人类动作语义分析中的重要组成部分,手势识别已经获得了广泛的应用。例如在医院就诊中一个手势识别系统可以使医生通过手势去操纵数字图像。
手势识别的目的是对手势视频序列进行正确的分类。尽管已有一些手势识别的工作,但从现实应用的角度设计一个鲁棒、贴近实际应用的手势识别算法仍面临很多挑战。传统的手势识别算法通常将视频序列转换为向量或矩阵的形式,这种处理方式不仅会造成视频中数据点的结构信息的损失,而且还会破坏视频序在时域上的平滑性。由于张量可以很自然的将原始的手势视频序列建模为一个三阶张量的形式。为更好的解决这个问题,最近一些工作从张量分解的角度运用多线性代数解决手势识别问题。张量分解的两种典型的形式为CP分解和Tucker分解。其主要区别在于CP分解是将张量分解为一系列的秩一张量之和的形式,Tucker分解则将张量分解成核张量与一组映射矩阵的模乘形式。然而,基于张量的手势识别算法存在一个基本但却容易被忽视的问题,即所有的视频序列在时域上需要有统一的长度。当前一种最普遍的处理方式是从视频序列中间选择固定长度的视频帧构建新的视频序列,从而使得这些视频序列的长度统一。然而这种处理方式会导致以下的不足之处:1)新构建的视频序列不能够全面的表征手势;2)不能够依靠手势动作中速度的变化去自动的捕获视频序列中的关键帧;3)由于需要预先获知视频的长度,因此并不能有效、实时的应用于实际需求中。
发明内容
本发明所要解决的技术问题是,提供一种能够解决手势视频序列识别问题,提高视频序列分类准确率的一种针对非等长视频手势识别的张量分解方法。
本发明所采用的技术方案是:一种针对非等长视频手势识别的张量分解方法,包括如下步骤:
1)将一个原始的视频表示成一个三阶张量
2)对三阶张量Α进行Tucker分解获得维度减少的核张量
3)求解核张量,通过动态学习更新结果直到算法收敛结果达到最优;
4)重复步骤1)~步骤3)将所有的视频表示为相同大小的核张量,即将视频序列缩放到相同尺度;
5)实现非等长条件下张量分解。
步骤2)所述的三阶张量Α的核张量
其中,
步骤3)所述的求解核张量,包括:
(1)初始化:给定原始三阶张量Α,随机初始化矩阵U1及U2;
(2)求解张量F:
F=Α×1U1×2U1>
(3)求解U3,为了将视频缩放到相同的尺度,对U3采用关键帧选择方法,即采用稀疏编码的方法从张量F中选取最优的K个切片构成基,其中,K<T,再用最优的基重构原始的视频,对张量F按照时间域展开得到矩阵
其中C为系数矩阵,
利用如下的等价关系:
其中W为除对角线以外其余值均为1的矩阵,D为对角矩阵且对角线的值
存在线性映射G=f(B),满足:
A(3)=GU3=(BC+E)U3>
其中E表示误差,则:
U3=(BC+E)+A(3)>
其中(BC+E)+为矩阵BC+E的伪逆;
通过从
定义误差函数
从基B中去掉使得误差函数e(bk)最小的列bp得到
令
然后迭代更新计算基B、系数矩阵C和矩阵S直至算法收敛;
利用U3=B+G求得U3,从而得到核张量
步骤5)所述的实现非等长条件下张量分解,是基于Tucker分解的基本形式
(1)将U1及U3作为已知求解U2;
(2)将U2及U3作为已知求解U1;
(3)重复第(1)~第(2)步直至收敛。
本发明的一种针对非等长视频手势识别的张量分解方法,降低了手势识别的难度,提高了手势识别的准确性,为后续的视频序列分类提供了良好的条件,能够较大程度提升视频序列分类的准确率。
具体实施方式
下面结合实施例对本发明的一种针对非等长视频手势识别的张量分解方法做出详细说明。
本发明的一种针对非等长视频手势识别的张量分解方法,包括如下步骤:
1)将一个原始的视频表示成一个三阶张量
2)对三阶张量Α进行Tucker分解获得维度减少的核张量
其中,
3)求解核张量,通过动态学习更新结果直到算法收敛结果达到最优,所述的求解核张量,包括:
(1)初始化:给定原始三阶张量Α,随机初始化矩阵U1及U2;
(2)求解张量F:
F=Α×1U1×2U1>
(3)求解U3,为了将视频缩放到相同的尺度,对U3采用关键帧选择方法,即采用稀疏编码的方法从张量F中选取最优的K个切片(slice)构成基,其中,K<T,再用最优的基重构原始的视频,对张量F按照时间域展开得到矩阵
其中C为系数矩阵,
利用如下的等价关系:
其中W为除对角线以外其余值均为1的矩阵,D为对角矩阵且对角线的值
存在线性映射G=f(B),满足:
A(3)=GU3=(BC+E)U3>
其中E表示误差,则:
U3=(BC+E)+A(3)>
其中(BC+E)+为矩阵BC+E的伪逆;
通过从
定义误差函数
从基B中去掉使得误差函数e(bk)最小的列bp得到
令
然后迭代更新计算基B、系数矩阵C和矩阵S直至算法收敛;
利用U3=B+G求得U3,从而得到核张量
4)重复步骤1)~步骤3)将所有的视频表示为相同大小的核张量,即将视频序列缩放到相同尺度;
5)实现非等长条件下张量分解,所述的实现非等长条件下张量分解,是基于Tucker分解的基本形式进行如下过程:
(1)将U1及U3作为已知求解U2;
(2)将U2及U3作为已知求解U1;
(3)重复第(1)~第(2)步直至收敛。
机译: 用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法,该方法具有用于生成视频信号的装置,该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率,每个帧图像由多个扫描线组成,扫描线由多个像素组成,图像中的每个像素由彩色数字分量组成(该方法包括确定功能的步骤);基于彩色数字(b)的三个分量中的至少一个的亮度像素,基于两个像素之间的亮度差异,针对当前图像表的扫描线中的至少大部分像素,确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素,以及至少(c)比较决策参数与
机译: 视频信号处理,其中将第一视频信息和其他视频信息进行组合,以生成针对边缘和非边缘区域以不同图片质量编码的帧
机译: 手势识别设备,手势识别方法,带手势识别设备和视频信号供应设备的投影仪