SignLLM: Sign Languages Production Large Language Models

2024年05月17日
  • 简介
    本文介绍了第一个全面的多语种手语数据集Prompt2Sign,该数据集基于包括美国手语(ASL)和其他七种手语的公共数据构建。我们的数据集将大量视频转换为流畅、适合模型训练的格式,优化了seq2seq和text2text等翻译模型的训练。在这个新数据集的基础上,我们提出了SignLLM,第一个多语种手语生成模型,其中包括两种新颖的多语种手语生成模式,可以从输入文本或提示生成手语姿势。这两种模式都可以使用基于强化学习的新损失和模块,通过增强模型自主采样高质量数据的能力来加速训练。我们展示了SignLLM的基准结果,证明我们的模型在八种手语的SLP任务中实现了最先进的性能。
  • 图表
  • 解决问题
    本文旨在介绍Prompt2Sign数据集和SignLLM模型,以解决手语翻译的多语言问题。
  • 关键思路
    本文提出了一种基于Prompt2Sign数据集的多语言手语生成模型SignLLM,该模型包括两种新的多语言模式,能够根据输入文本或提示生成手语姿势。模型采用增强学习技术,加速训练并提高数据采样质量。
  • 其它亮点
    本文使用了Prompt2Sign数据集,包括八种手语语言,提出了一种新的多语言手语生成模型SignLLM,并在多个任务上取得了最先进的性能。此外,本文使用了增强学习技术来提高模型的训练速度和数据采样质量。
  • 相关研究
    最近的相关研究包括:《DeepSigns: A Hybrid CNN-LSTM Architecture for American Sign Language Recognition》、《Sign Language Recognition using Convolutional Neural Networks (CNN)》、《A survey of sign language recognition using wearable devices》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论