- 简介将手语视频翻译为口头文本存在独特的挑战,因为不同说话者和语境下的语法、表达细微差别和视觉外观高度变化。视频中的中间注释旨在指导翻译过程。在我们的工作中,我们专注于“Gloss2Text”翻译阶段,并通过利用预训练的大型语言模型(LLMs)、数据增强和新的标签平滑损失函数提出了几个进展,利用注释翻译的歧义显著提高了最先进方法的性能。通过在PHOENIX Weather 2014T数据集上进行大量实验和消融研究,我们的方法在“Gloss2Text”翻译中超过了最先进的性能,表明它在解决手语翻译方面是有效的,为未来的研究和发展提供了有前途的途径。
-
- 图表
- 解决问题本论文旨在解决手语翻译中的问题,包括语法、表情细微差别和不同说话者和环境下的视觉差异,提出了一种新的方法来改进Gloss2Text翻译阶段的性能。
- 关键思路该论文提出了几种新的方法来提高Gloss2Text翻译的性能,包括利用预训练的大型语言模型、数据增强和新的标签平滑损失函数,这些方法都在PHOENIX Weather 2014T数据集上进行了广泛的实验和分析。
- 其它亮点该论文的亮点包括:在Gloss2Text翻译方面,提出了一种新的方法,取得了最新的最佳性能;使用了数据增强和标签平滑损失函数来提高性能;在PHOENIX Weather 2014T数据集上进行了广泛的实验和分析。
- 在这个领域中,还有一些相关的研究,如《DeepASL: Towards Practical and Accurate End-to-End Sign Language Recognition》、《Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流