Using an LLM to Turn Sign Spottings into Spoken Language Sentences

简介

手语翻译（SLT）是一项具有挑战性的任务，旨在从手语视频中生成口语句子。本文介绍了一种混合SLT方法，Spotter+GPT，它利用手语识别器和预训练的大型语言模型来提高SLT性能。我们的方法建立在两个组件的优势基础之上。首先，视频由手语识别器处理，该识别器在语言手语数据集上进行训练，以识别单个手语。然后，这些被识别出的手语被传递给强大的语言模型，将它们转化为连贯且上下文适当的口语句子。
图表
解决问题

论文旨在提高手语翻译的性能，通过使用手语识别器和预训练的大型语言模型的混合方法。
关键思路

该方法利用手语识别器和语言模型的优势，首先使用手语识别器识别单个手语，然后将这些手语传递给语言模型，将其转换为连贯且上下文适当的口语句子。
其它亮点

论文使用了混合方法来提高手语翻译的性能，这是一个新颖的方法。实验结果表明，该方法在手语翻译任务中表现良好。论文还提供了一个手语数据集和代码，这些都是开源的。值得进一步研究的是如何进一步优化手语识别器和语言模型的性能。
相关研究

最近的相关研究包括：1.《使用深度学习进行手语翻译的综述》2.《手语识别和翻译：现状与挑战》3.《使用卷积神经网络进行手语识别的研究》