Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing

向作者提问

NEW

简介

将手语视频翻译为口头文本存在独特的挑战，因为不同说话者和语境下的语法、表达细微差别和视觉外观高度变化。视频中的中间注释旨在指导翻译过程。在我们的工作中，我们专注于“Gloss2Text”翻译阶段，并通过利用预训练的大型语言模型（LLMs）、数据增强和新的标签平滑损失函数提出了几个进展，利用注释翻译的歧义显著提高了最先进方法的性能。通过在PHOENIX Weather 2014T数据集上进行大量实验和消融研究，我们的方法在“Gloss2Text”翻译中超过了最先进的性能，表明它在解决手语翻译方面是有效的，为未来的研究和发展提供了有前途的途径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决手语翻译中的问题，包括语法、表情细微差别和不同说话者和环境下的视觉差异，提出了一种新的方法来改进Gloss2Text翻译阶段的性能。
关键思路

该论文提出了几种新的方法来提高Gloss2Text翻译的性能，包括利用预训练的大型语言模型、数据增强和新的标签平滑损失函数，这些方法都在PHOENIX Weather 2014T数据集上进行了广泛的实验和分析。
其它亮点

该论文的亮点包括：在Gloss2Text翻译方面，提出了一种新的方法，取得了最新的最佳性能；使用了数据增强和标签平滑损失函数来提高性能；在PHOENIX Weather 2014T数据集上进行了广泛的实验和分析。
相关研究

在这个领域中，还有一些相关的研究，如《DeepASL: Towards Practical and Accurate End-to-End Sign Language Recognition》、《Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问