Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation

2024年05月07日
  • 简介
    自动手语翻译需要整合计算机视觉和自然语言处理,以有效地弥合手语和口语之间的沟通障碍。然而,缺乏大规模的训练数据来支持手语翻译,这意味着我们需要利用口语资源。我们引入了Sign2GPT,这是一种新颖的框架,用于通过轻量级适配器实现无术语手语翻译,利用大规模预训练的视觉和语言模型。由于受到数据集大小限制和训练长手语视频的计算要求的限制,轻量级适配器对手语翻译至关重要。我们还提出了一种新颖的预训练策略,它指导我们的编码器从自动提取的伪术语中学习手语表示,而不需要术语顺序信息或注释。我们在两个公共基准手语翻译数据集上评估了我们的方法,即RWTH-PHOENIX-Weather 2014T和CSL-Daily,并显着提高了无术语翻译性能的最新水平。
  • 图表
  • 解决问题
    论文旨在解决手语翻译中缺乏大规模数据集的问题,提出了一种利用预训练模型和轻量级适配器进行无注释手语翻译的新框架。
  • 关键思路
    论文提出了一种轻量级适配器的方法,使得预训练的视觉和语言模型能够有效地进行无注释手语翻译。同时,还提出了一种新的预训练策略,能够在不需要注释或顺序信息的情况下,让编码器从自动提取的伪注释中学习手语表示。
  • 其它亮点
    论文在两个公共手语翻译数据集上进行了实验评估,即RWTH-PHOENIX-Weather 2014T和CSL-Daily,并且取得了比现有方法更好的性能。此外,论文还提供了开源代码,这对未来的研究有很大的帮助。
  • 相关研究
    在最近的相关研究中,还有一些关于手语翻译的工作,如《Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation》和《Sign Language Translation: A New Benchmark Dataset and A Naive Baseline》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论