Using an LLM to Turn Sign Spottings into Spoken Language Sentences

2024年03月15日
  • 简介
    手语翻译(SLT)是一项具有挑战性的任务,旨在从手语视频中生成口语句子。本文介绍了一种混合SLT方法,Spotter+GPT,它利用手语识别器和预训练的大型语言模型来提高SLT性能。我们的方法建立在两个组件的优势基础之上。首先,视频由手语识别器处理,该识别器在语言手语数据集上进行训练,以识别单个手语。然后,这些被识别出的手语被传递给强大的语言模型,将它们转化为连贯且上下文适当的口语句子。
  • 图表
  • 解决问题
    论文旨在提高手语翻译的性能,通过使用手语识别器和预训练的大型语言模型的混合方法。
  • 关键思路
    该方法利用手语识别器和语言模型的优势,首先使用手语识别器识别单个手语,然后将这些手语传递给语言模型,将其转换为连贯且上下文适当的口语句子。
  • 其它亮点
    论文使用了混合方法来提高手语翻译的性能,这是一个新颖的方法。实验结果表明,该方法在手语翻译任务中表现良好。论文还提供了一个手语数据集和代码,这些都是开源的。值得进一步研究的是如何进一步优化手语识别器和语言模型的性能。
  • 相关研究
    最近的相关研究包括:1.《使用深度学习进行手语翻译的综述》2.《手语识别和翻译:现状与挑战》3.《使用卷积神经网络进行手语识别的研究》
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论