Improving Gloss-free Sign Language Translation by Reducing Representation Density

2024年05月23日
  • 简介
    本文旨在开发性能良好的无需昂贵注释的手语翻译系统,即无标注手语翻译(SLT)系统,但目前其性能仍远落后于基于注释的方法。本文发现了一个表征密度问题,该问题可能会限制无标注SLT的性能。具体而言,表征密度问题描述了语义不同的手势在特征空间中的视觉表征往往密集地聚集在一起,这使得无标注方法难以区分不同的手势,从而导致性能急剧下降。为了解决表征密度问题,本文引入了一个简单但有效的对比学习策略,即SignCL,它鼓励无标注模型以自监督的方式学习更具有区分性的特征表示。我们的实验表明,所提出的SignCL可以显著降低表征密度,并在各种翻译框架下提高性能。具体而言,对于CSL-Daily数据集上的手语变换器和GFSLT-VLP,SignCL的BLEU分数分别提高了39%和46%,而没有增加任何模型参数。与基于大规模预训练视觉和语言模型的最先进方法Sign2GPT相比,SignCL只使用了其参数的35%,但性能更好。实现和检查点可以在https://github.com/JinhuiYE/SignCL上找到。
  • 图表
  • 解决问题
    本文旨在解决无需昂贵的手语注释的手语翻译系统的性能滞后问题,特别是在表示密度问题方面的瓶颈。
  • 关键思路
    本文提出了一种名为SignCL的对比学习策略,旨在以自监督的方式鼓励无注释的模型学习更具有区分性的特征表示,从而解决表示密度问题。
  • 其它亮点
    本文在CSL-Daily数据集上进行了实验,证明了SignCL可以显著降低表示密度并在各种翻译框架中提高性能。相比于基于大规模预训练的视觉和语言模型的最新方法Sign2GPT,SignCL只使用了其35%的参数,但实现了更好的性能。作者已经提供了代码和检查点。
  • 相关研究
    在这个领域中,最近的相关研究包括:Sign2GPT,基于大规模预训练的视觉和语言模型,用于手语翻译;以及其他基于手语注释的手语翻译方法,如基于注意力机制的手语翻译器(SLT)和手语翻译器(SLT)的变体。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论