首页> 外文OA文献 >From pixels to gestures: learning visual representations for human analysis in color and depth data sequences
【2h】

From pixels to gestures: learning visual representations for human analysis in color and depth data sequences

机译:从像素到手势:学习视觉表示以进行颜色和深度数据序列中的人体分析

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

[cat] L’anàlisi visual de persones a partir d'imatges és un tema de recerca molt important, atesa la rellevància que té a una gran quantitat d'aplicacions dins la visió per computador, com per exemple: detecció de vianants, monitorització i vigilància,interacció persona-màquina, “e-salut” o sistemes de recuperació d’matges a partir de contingut, entre d'altres. En aquesta tesi volem aprendre diferents representacions visuals del cos humà, que siguin útils per a la anàlisi visual de persones en imatges i vídeos. Per a tal efecte, analitzem diferents modalitats d'imatge com són les imatges de color RGB i les imatges de profunditat, i adrecem el problema a diferents nivells d'abstracció, des dels píxels fins als gestos: segmentació de persones, estimació de la pose humana i reconeixement de gestos. Primer, mostrem com la segmentació binària (objecte vs. fons) del cos humà en seqüències d'imatges ajuda a eliminar soroll pertanyent al fons de l'escena en qüestió. El mètode presentat, basat en optimització “Graph cuts”, imposa consistència espai-temporal a Ies màscares de segmentació obtingudes en “frames” consecutius. En segon lloc, presentem un marc metodològic per a la segmentació multi-classe, amb la qual podem obtenir una descripció més detallada del cos humà, en comptes d'obtenir una simple representació binària separant el cos humà del fons, podem obtenir màscares de segmentació més detallades, separant i categoritzant les diferents parts del cos. A un nivell d'abstraccíó més alt, tenim com a objectiu obtenir representacions del cos humà més simples, tot i ésser suficientment descriptives. Els mètodes d'estimació de la pose humana sovint es basen en models esqueletals del cos humà, formats per segments (o rectangles) que representen les extremitats del cos, connectades unes amb altres seguint les restriccions cinemàtiques del cos humà. A la pràctica, aquests models esqueletals han de complir certes restriccions per tal de poder aplicar mètodes d'inferència que permeten trobar la solució òptima de forma eficient, però a la vegada aquestes restriccions suposen una gran limitació en l'expressivitat que aques.ts models son capaços de capturar. Per tal de fer front a aquest problema, proposem un enfoc “top-down” per a predir la posició de les parts del cos del model esqueletal, introduïnt una representació de parts de mig nivell basada en “Poselets”. Finalment. proposem un marc metodològic per al reconeixement de gestos, basat en els “bag of visual words”. Aprofitem els avantatges de les imatges RGB i les imatges; de profunditat combinant vocabularis visuals específiques per a cada modalitat, emprant late fusion. Proposem un nou descriptor per a imatges de profunditat invariant a rotació, que millora l'estat de l'art, i fem servir piràmides espai-temporals per capturar certa estructura espaial i temporal dels gestos. Addicionalment, presentem una reformulació probabilística del mètode “Dynamic Time Warping” per al reconeixement de gestos en seqüències d'imatges. Més específicament, modelem els gestos amb un model probabilistic gaussià que implícitament codifica possibles deformacions tant en el domini espaial com en el temporal.
机译:[eng]从图像对人进行视觉分析是一个非常重要的研究课题,因为它与计算机视觉中的大量应用相关,例如行人检测,监视和监视。监视,人机交互,“电子医疗”或基于内容的图像检索系统等。在本文中,我们希望学习人体的不同视觉表示形式,这对于图像和视频中人的视觉分析很有用。为此,我们分析了不同的图像模式(例如RGB彩色图像和深度图像),并解决了从像素到手势的不同抽象级别的问题:人物分割,姿势估计人和手势识别。首先,我们展示了图像序列中人体的二值分割(对象与背景)如何帮助消除属于相关场景背景的噪声。所提出的方法基于“图割”优化,对在连续“帧”中获得的分割蒙版施加时空一致性。其次,我们提出了一种用于多类分割的方法框架,通过该框架,我们可以获得对人体的更详细描述,而不是获得将人体与背景分开的简单二进制表示,而可以获得分割蒙版更详细地介绍了人体的不同部位,并对它们进行了分类。尽管具有足够的描述性,但在更高的抽象水平上,我们旨在获得更简单的人体表示。估计人体姿势的方法通常基于人体的骨骼模型,该模型由代表人体四肢的部分(或矩形)组成,这些部分根据人体的运动学约束相互连接。在实践中,这些骨架模型必须满足某些约束条件,以便能够应用允许有效找到最佳解决方案的推理方法,但与此同时,这些约束条件对这些模型的表现力构成了极大的限制。他们能够捕获。为了解决这个问题,我们提出了一种“自上而下”的方法来预测骨骼模型身体部位的位置,并基于“ Poselets”引入了部位的中层表示。最后。我们提出了一种基于“视觉单词袋”的手势识别方法框架。我们利用RGB图像和图像;深度融合,使用后期融合,为每个模态结合特定的视觉词汇。我们为旋转不变深度的图像提出了一个新的描述符,从而改善了现有技术,并使用时空金字塔来捕获手势的某些时空结构。此外,我们提出了用于图像序列中手势识别的“动态时间规整”方法的概率表述。更具体地说,我们使用高斯概率模型对手势建模,该模型隐式编码了空间和时间域中的可能变形。

著录项

  • 作者

    Hernández-Vela Antonio;

  • 作者单位
  • 年度 2015
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号