Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing

2024年07月01日
  • 简介
    将手语视频翻译为口头文本存在独特的挑战,因为不同说话者和语境下的语法、表达细微差别和视觉外观高度变化。视频中的中间注释旨在指导翻译过程。在我们的工作中,我们专注于“Gloss2Text”翻译阶段,并通过利用预训练的大型语言模型(LLMs)、数据增强和新的标签平滑损失函数提出了几个进展,利用注释翻译的歧义显著提高了最先进方法的性能。通过在PHOENIX Weather 2014T数据集上进行大量实验和消融研究,我们的方法在“Gloss2Text”翻译中超过了最先进的性能,表明它在解决手语翻译方面是有效的,为未来的研究和发展提供了有前途的途径。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决手语翻译中的问题,包括语法、表情细微差别和不同说话者和环境下的视觉差异,提出了一种新的方法来改进Gloss2Text翻译阶段的性能。
  • 关键思路
    该论文提出了几种新的方法来提高Gloss2Text翻译的性能,包括利用预训练的大型语言模型、数据增强和新的标签平滑损失函数,这些方法都在PHOENIX Weather 2014T数据集上进行了广泛的实验和分析。
  • 其它亮点
    该论文的亮点包括:在Gloss2Text翻译方面,提出了一种新的方法,取得了最新的最佳性能;使用了数据增强和标签平滑损失函数来提高性能;在PHOENIX Weather 2014T数据集上进行了广泛的实验和分析。
  • 相关研究
    在这个领域中,还有一些相关的研究,如《DeepASL: Towards Practical and Accurate End-to-End Sign Language Recognition》、《Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问