首页> 中文学位 >动态手势识别中的时空特征表示和字典优化研究
【6h】

动态手势识别中的时空特征表示和字典优化研究

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 研究背景和意义

1.2 国内外研究概况

1.2.1 输入设备

1.2.2 手势模型

1.2.3 动态手势识别方法

1.2.4 手势识别应用

1.2.5 国内外研究机构和常用手势库

1.3 本文工作

1.4 本文结构安排

2 RGB-D数据采集及视觉词袋模型框架

2.1 Kinect构造和深度图像成像原理介绍

2.2 视觉词袋模型

2.2.1 词袋模型和视觉词袋模型的关系

2.2.2 常见时空特征提取算法

2.2.3 字典学习和编码

2.2.4 视频表示

2.2.5 训练分类器和识别

3 基于RGB-D的一次学习手势识别

3.1 引言

3.2 三维增强运动尺度不变特征转换

3.2.1 构建高斯和差分高斯金字塔

3.2.2 构建光流金字塔

3.2.3 关键点检测

3.2.4 计算特征描绘子

3.2.5 3D EMoSIFT算法小结

3.3 字典学习和特征编码

3.4 分类器

3.5 基于DTW的连续手势分割

3.6 一次学习手势识别总结

3.7 实验结果

3.7.1 数据库

3.7.2 度量准则

3.7.3 参数讨论

3.7.4 实验比较

3.8 本章小结

4 三维稀疏运动尺度不变特征转换

4.1 引言

4.2 构建RGB-D金字塔

4.3 关键点检测

4.3.1 初始点检测

4.3.2 关键点跟踪和检测

4.4 计算特征描绘子

4.4.1 构建三维梯度空间

4.4.2 构建三维运动空间

4.5 3D SMoSIFT算法总结

4.6 实验结果

4.6.1 属性设置

4.6.2 时间复杂度分析

4.6.3 实验比较

4.7 本章小结

5 特定类互信息最大化

5.1 引言

5.2 三变量条件熵引理推导

5.3 特定类互信息最大化(CSMMI)

5.3.1 初始化字典

5.3.2 CSMMI算法的提出及求解过程

5.3.3 分类

5.4 CSMMI子模块法(Submodularity)

5.5 实验结果

5.5.1 CSMMI直接法与子模块方法比较

5.5.2 稀疏系数直方图

5.5.3 剑桥大学手势库

5.5.4 Chalearn手势库

5.5.5 Keck手势库

5.5.6 讨论

5.6 本章小结

6 基于Kinect的手势识别系统平台

6.1 引言

6.2 手势识别系统平台

6.2.1 数据采集模块

6.2.2 训练模块

6.2.3 在线识别模块

6.3 动态手语识别系统

6.3.1 动态手语介绍

6.3.2 动态手语在线识别

6.3.3 识别性能测试

6.4 交通警察手势识别系统

6.4.1 交通警察手势介绍

6.4.2 交通警察手势在线识别

6.4.3 识别性能测试

6.5 本章小结

7 结论

7.1 工作总结

7.2 未来展望

参考文献

作者简历及攻读博士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

手势识别是人机交互的重要组成部分。特别是近年来随着RGB-D相机(如Kinect)的发展,基于RGB-D数据的手势识别研究是当前手势识别中的一个研究热点。本文研究的重点是如何从RGB-D数据中有效地提取时空特征,以及如何对提取的特征进行字典学习和优化。论文的主要工作和贡献如下:
  1.提出了基于RGB-D的一次学习手势识别方法。由于一次学习是指每类只有一个训练样本,因此基于RGB-D的一次学习识别研究有两个重要的挑战性问题,即在每类只有一个训练样本的前提下如何提取丰富的、具有分辨性特征以及如何学习一个有效的识别模型。(1)对于特征提取,提出了一种新的从RGB-D数据中提取时空特征方法:三维增强运动尺度不变特征转换(3D EMoSIFT)。3D EMoSIFT具有旋转和尺度不变性,可以获取更紧凑、更丰富的特征信息;(2)为了获取一个稳定性高、识别效果好的模型,首先对所有训练样本的特征进行Kmeans聚类以获取视觉字典(即聚类中心);然后,采用同步正交匹配追踪(SOMP)算法进行特征编码,使每个特征能够由字典中的多个词通过线性组合来表示。与矢量量化相比,SOMP算法具有更小的重构误差以及更好的识别效果。
  2.提出了一种从RGB-D数据中快速提取时空特征的方法:三维稀疏运动尺度不变特征转换(3D SMoSIFT)算法。首先,分别对每帧RGB图像和深度图像构建金字塔;其次在RGB或者深度图像金字塔中利用角点检测和稀疏光流算法检测和跟踪稳定的关键点;然后提取关键点附近的局部区域(包含RGB-D数据),并在局部区域构建三维梯度空间和三维运动空间;最后分别在三维梯度空间和三维运动空间中计算尺度不变特征转换(SIFT)特征。3D SMoSIFT不仅具有旋转和尺度不变特性而且对部分遮挡具有较强的鲁棒性。此外,还分析了3D EMoSIFT和3D SMoSIFT的时间复杂度。从实验结果看,3D SMoSIFT比以往的时空特征算法(Harrid3d,MoSIFT,3D MoSIFT等)和3D EMoSIFT识别效果都好,并且3D SMoSIFT处理速度达到实时。
  3.提出了一种类字典优化算法:特定类互信息最大化(CSMMI)。CSMMI的目标是每类学习一个紧凑的、具有分辨性的字典。与基于视觉词袋模型中所有类学习一个共享字典不同,CSMMI提出了一个互信息最大化目标函数来优化特定类字典,该目标函数融合了类内和类间互信息。CSMMI的目标函数有两个优点:(1)保留类内的固有结构信息:对特定类的字典,已经选择的词与该字典中未选择的词之间具有互信息最大;(2)减少类间的外在结构信息:使特定类中已经选择的词与其他类字典中的词具有互信息最小。为了降低CSMMI直接法的时间复杂度,还提出了利用子模块的方法来快速求特定类字典的策略。

著录项

  • 作者

    万军;

  • 作者单位

    北京交通大学;

  • 授予单位 北京交通大学;
  • 学科 信号与信息处理
  • 授予学位 博士
  • 导师姓名 阮秋琦;
  • 年度 2014
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.41;
  • 关键词

    动态手势识别; 图像处理; 时空特征; 字典学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号