- 简介手语翻译(SLT)是一项具有挑战性的任务,旨在将手语视频翻译成口语。受到在广泛的多语言文本语料库上训练的大型语言模型(LLM)强大的翻译能力的启发,我们旨在利用现成的LLM来处理SLT。在本文中,我们对手语视频进行规范化处理,以体现口语的语言特征,并提出了一种新的SignLLM框架,将手语视频转化为类似语言的表示形式,以便现成的LLM更好地理解。SignLLM包括两个关键模块:(1)向量量化视觉手语模块将手语视频转换为一系列离散的字符级手语标记,(2)码本重建和对齐模块使用最优传输公式将这些字符级标记转换为单词级手语表示。手语文本对齐损失进一步弥合了手语和文本标记之间的差距,增强了语义兼容性。我们在两个广泛使用的SLT基准测试中实现了最先进的无术语词汇结果。
- 图表
- 解决问题本论文旨在解决手语翻译中的挑战,将手语视频转化为口语,并使用大型语言模型进行翻译。论文提出了一种新的SignLLM框架,通过将手语视频转化为类似语言的表示形式,使其更易于被现成的大型语言模型处理。
- 关键思路SignLLM框架包括两个关键模块:将手语视频转换为离散的字符级手语令牌的向量量化视觉手语模块,以及使用最优传输公式将这些字符级令牌转换为单词级手语表示的码本重建和对齐模块。同时,通过手语-文本对齐损失增强语义兼容性。
- 其它亮点论文在两个广泛使用的手语翻译基准测试中取得了最先进的无术语结果。实验使用了大量数据集,并提供了开源代码。
- 最近的相关研究包括:《Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation》、《Towards Sign Language Translation without Parallel Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢