A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars

2024年01月09日
  • 简介
    本文的目标是开发一个功能性系统,将口语翻译成手语,称为口语到手语翻译。口语到手语任务与传统的手语到口语翻译是正交和互补的。为了实现口语到手语翻译,我们提出了一个简单的基线,包括三个步骤:1)使用现有的手语到口语基准创建一个手语视频词汇表;2)估计词汇表中每个手语视频的3D手语;3)在产生的手语-3D手语词典的帮助下,训练一个口语到手语模型,该模型由一个文本到手语翻译器、一个手语连接器和一个渲染模块组成。翻译结果通过手语化身显示。据我们所知,我们是第一个用3D手语输出格式呈现口语到手语任务的人。除了其口语到手语翻译能力外,我们还展示了我们方法的两个副产品——3D关键点增强和多视角理解——可以帮助基于关键点的手语理解。代码和模型将在https://github.com/FangyunWei/SLRT上提供。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在开发一个能够将口语翻译成手语的系统,称为Spoken2Sign翻译。这个任务是传统手语到口语翻译(Sign2Spoken)的补充和正交任务。作者提出了一个简单的基线模型,包括三个步骤:使用现有的Sign2Spoken基准创建一个手语视频词典;为词典中的每个手语视频估算一个3D手语;通过使用所产生的手语-3D手语词典来训练Spoken2Sign模型,该模型由Text2Gloss翻译器、手语连接器和渲染模块组成。翻译结果通过手语化身显示。作者还演示了他们方法的两个副产品:3D关键点增强和多视图理解,可以帮助基于关键点的手语理解。
  • 关键思路
    本文提出了一个简单的Spoken2Sign基线模型,使用现有的Sign2Spoken基准创建一个手语视频词典,为词典中的每个手语视频估算一个3D手语,通过使用所产生的手语-3D手语词典来训练Spoken2Sign模型,该模型由Text2Gloss翻译器、手语连接器和渲染模块组成。作者还演示了他们方法的两个副产品:3D关键点增强和多视图理解,可以帮助基于关键点的手语理解。
  • 其它亮点
    本文的亮点在于提出了一个新的任务:Spoken2Sign翻译,并提出了一个简单的基线模型;作者还演示了他们方法的两个副产品:3D关键点增强和多视图理解,可以帮助基于关键点的手语理解。作者使用了现有的Sign2Spoken基准来创建手语视频词典,并使用渲染模块将翻译结果通过手语化身显示。作者还开源了代码和模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:“Real-time Sign Language Detection using Human Pose Estimation and Convolutional Neural Networks”和“Sign Language Recognition using Handcrafted and Deep Features”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~