首页> 外文OA文献 >Computer vision methods for unconstrained gesture recognition in the context of sign language annotation
【2h】

Computer vision methods for unconstrained gesture recognition in the context of sign language annotation

机译:手语注释中无约束手势识别的计算机视觉方法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Cette thèse porte sur l'étude des méthodes de vision par ordinateur pour la reconnaissance de gestes naturels dans le contexte de l'annotation de la Langue des Signes. La langue des signes (LS) est une langue gestuelle développée par les sourds pour communiquer. Un énoncé en LS consiste en une séquence de signes réalisés par les mains, accompagnés d'expressions du visage et de mouvements du haut du corps, permettant de transmettre des informations en parallèles dans le discours. Même si les signes sont définis dans des dictionnaires, on trouve une très grande variabilité liée au contexte lors de leur réalisation. De plus, les signes sont souvent séparés par des mouvements de co-articulation. Cette extrême variabilité et l'effet de co-articulation représentent un problème important dans les recherches en traitement automatique de la LS. Il est donc nécessaire d'avoir de nombreuses vidéos annotées en LS, si l'on veut étudier cette langue et utiliser des méthodes d'apprentissage automatique. Les annotations de vidéo en LS sont réalisées manuellement par des linguistes ou experts en LS, ce qui est source d'erreur, non reproductible et extrêmement chronophage. De plus, la qualité des annotations dépend des connaissances en LS de l'annotateur. L'association de l'expertise de l'annotateur aux traitements automatiques facilite cette tâche et représente un gain de temps et de robustesse. Le but de nos recherches est d'étudier des méthodes de traitement d'images afin d'assister l'annotation des corpus vidéo: suivi des composantes corporelles, segmentation des mains, segmentation temporelle, reconnaissance de gloses. Au cours de cette thèse nous avons étudié un ensemble de méthodes permettant de réaliser l'annotation en glose. Dans un premier temps, nous cherchons à détecter les limites de début et fin de signe. Cette méthode d'annotation nécessite plusieurs traitements de bas niveau afin de segmenter les signes et d'extraire les caractéristiques de mouvement et de forme de la main. D'abord nous proposons une méthode de suivi des composantes corporelles robuste aux occultations basée sur le filtrage particulaire. Ensuite, un algorithme de segmentation des mains est développé afin d'extraire la région des mains même quand elles se trouvent devant le visage. Puis, les caractéristiques de mouvement sont utilisées pour réaliser une première segmentation temporelle des signes qui est par la suite améliorée grâce à l'utilisation de caractéristiques de forme. En effet celles-ci permettent de supprimer les limites de segmentation détectées en milieu des signes. Une fois les signes segmentés, on procède à l'extraction de caractéristiques visuelles pour leur reconnaissance en termes de gloses à l'aide de modèles phonologiques. Nous avons évalué nos algorithmes à l'aide de corpus internationaux, afin de montrer leur avantages et limitations. L'évaluation montre la robustesse de nos méthodes par rapport à la dynamique et le grand nombre d'occultations entre les différents membres. L'annotation résultante est indépendante de l'annotateur et représente un gain de robustese important.
机译:本文主要研究计算机视觉方法在手语注解的背景下识别自然手势的方法。手语(LS)是聋人开发的一种用于交流的手语。 LS中的陈述由一系列的手势组成,并伴随着面部表情和上半身动作,从而可以在语音中并行传输信息。即使符号是在字典中定义的,在创建过程中,与上下文相关的变化也很大。另外,这些标志常常通过关节运动而分开。这种极端的可变性和协同发音效果是LS自动治疗研究中的主要问题。因此,如果我们想学习该语言并使用机器学习方法,则必须在LS中标注许多视频。 LS视频注释是由语言学家或LS专家手动完成的,这是错误的来源,不可复制且非常耗时。另外,注释的质量取决于注释者的LS知识。注释者的专业知识与自动处理的结合使这项任务变得容易,并节省了时间和可靠性。我们研究的目的是研究图像处理方法,以帮助注释视频语料库:身体成分的监视,手的分割,时间的分割,光泽的识别。在本文中,我们研究了一套可以实现光泽注释的方法。首先,我们试图检测标志开始和结束的范围。此注释方法需要进行一些低级处理,以分割符号并提取手的运动和形状特征。首先,我们提出了一种基于粒子滤波的监测对掩星健壮的身体成分的方法。接下来,开发了手分割算法,以便即使手在脸部前面也能提取手的区域。然后,将运动特征用于对符号进行第一时间分割,随后通过使用形状特征来对其进行改进。实际上,这些使得可以消除在符号中间检测到的分割界限。分割符号后,我们将使用语音模型提取视觉特征以识别光泽。为了显示其优势和局限性,我们使用国际语料库对算法进行了评估。评估显示了我们的方法相对于动力学的稳健性以及不同成员之间的大量掩星。产生的注释独立于注释器,并且代表了鲁棒性的显着提高。

著录项

  • 作者

    Gonzalez Preciado Matilde;

  • 作者单位
  • 年度 2012
  • 总页数
  • 原文格式 PDF
  • 正文语种 {"code":"en","name":"English","id":9}
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号