Sign Language Transformers: Joint End-to-End Sign Language Recognition and Translation

机译：手语变形金刚：端到端联合手语识别和翻译

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Prior work on Sign Language Translation has shown that having a mid-level sign gloss representation (effectively recognizing the individual signs) improves the translation performance drastically. In fact, the current state-of-the-art in translation requires gloss level tokenization in order to work. We introduce a novel transformer based architecture that jointly learns Continuous Sign Language Recognition and Translation while being trainable in an end-to-end manner. This is achieved by using a Connectionist Temporal Classification (CTC) loss to bind the recognition and translation problems into a single unified architecture. This joint approach does not require any ground-truth timing information, simultaneously solving two co-dependant sequence-to-sequence learning problems and leads to significant performance gains. We evaluate the recognition and translation performances of our approaches on the challenging RWTH-PHOENIX-Weather-2014T (PHOENIX14T) dataset. We report state-of-the-art sign language recognition and translation results achieved by our Sign Language Transformers. Our translation networks outperform both sign video to spoken language and gloss to spoken language translation models, in some cases more than doubling the performance (9.58 vs. 21.80 BLEU-4 Score). We also share new baseline translation results using transformer networks for several other text-to-text sign language translation tasks.

机译：先前关于手语翻译的工作表明，具有中等级别的手语光泽表示（有效识别单个手语）可以显着提高翻译性能。实际上，当前的最新翻译要求使用光泽度级别标记化才能起作用。我们介绍了一种基于变压器的新型架构，该架构可共同学习连续手语识别和翻译，同时可进行端到端的培训。这是通过使用Connectionist Temporal分类（CTC）丢失来将识别和转换问题绑定到一个统一的体系结构中来实现的。这种联合方法不需要任何真实的时序信息，可以同时解决两个相互依赖的逐序列学习问题，并可以显着提高性能。我们在具有挑战性的RWTH-PHOENIX-Weather-2014T（PHOENIX14T）数据集上评估了我们的方法的识别和翻译性能。我们报告了我们的手语变形金刚取得的最新手语识别和翻译结果。我们的翻译网络在手势视频和口语翻译模型方面均优于手语视频，在口语翻译模型方面也优于光泽度，在某些情况下，其性能要高出一倍以上（9.58比21.80 BLEU-4得分）。我们还将使用变压器网络共享其他一些文本到文本手语翻译任务的新基线翻译结果。

著录项

来源
《IEEE/CVF Conference on Computer Vision and Pattern Recognition》|2020年|10020-10030|共11页
会议地点
作者
Necati Cihan Camgöz; Oscar Koller; Simon Hadfield; Richard Bowden;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Assistive technology; Gesture recognition; Task analysis; Linguistics; Computer vision; Decoding;

机译：辅助技术;手势识别;任务分析;语言学;计算机视觉;解码;

相似文献

外文文献
中文文献
专利

1. ANFIS Based Methodology for Sign Language Recognition and Translating to Number in Kannada Language [J] . Ramesh Mahadev kagalkar, S. V. Gumaste International Journal of Recent Contributions from Engineering, Science & IT . 2017,第1期

机译：基于ANFIS的卡纳达语手语识别和数字转换方法
2. Designing High Accuracy Statistical Machine Translation for Sign Language Using Parallel Corpus: Case Study English and American Sign Language [J] . Achraf Othman, Mohamed Jemni Journal of information technology research . 2019,第2期

机译：使用平行语料库为手语设计高精度统计机器翻译：案例研究英语和美国手语
3. Designing High Accuracy Statistical Machine Translation for Sign Language Using Parallel Corpus: Case Study English and American Sign Language [J] . Achraf Othman, Mohamed Jemni Journal of information technology research . 2019,第2期

机译：使用并行语料库设计高精度统计机器翻译手术语言：案例研究英语和美国手语
4. American and Russian Sign Language Dactyl Recognition and Text2Sign Translation [C] . Ilya Makarov, Nikolay Veldyaykin, Maxim Chertkov, International conference on analysis of Images, social networks and texts . 2019

机译：美国和俄罗斯手语手势识别和Text2Sign翻译
5. Signing identity: Rethinking United States poetry, acts of translating American sign language, African American, and Chicano poetry and the language of silence. [D] . Eddy, Shauna Lee. 2004

机译：签名：重新思考美国诗歌，翻译美国手语，非裔美国人和奇卡诺诗歌的行为以及沉默的语言。
6. British Sign Language Recognition via Late Fusion of Computer Vision and Leap Motion with Transfer Learning to American Sign Language [O] . Jordan J. Bird, Anikó Ekárt, Diego R. Faria 2020

机译：英国手语识别通过计算机视觉的后期融合和跨越式学习对美国手语的转移
7. Speak with signs: Active learning platform for Greek Sign Language, English Sign Language, and their translation [O] . Maria Papatsimouli, Lazaros Lazaridis, Konstantinos-Filippos Kollias, 2021

机译：与标志说话：希腊手语，英语手语的主动学习平台，以及他们的翻译

Sign Language Transformers: Joint End-to-End Sign Language Recognition and Translation

摘要

著录项

相似文献

相关主题

期刊订阅