- 简介这篇论文探讨了手语翻译(SLT)的问题,即如何将手语视频中的信息翻译成文本形式的口语。现有研究虽然取得了进展,但通常局限于狭窄的领域和/或少数手语,并且在开放领域任务中存在困难。本文通过扩大预训练数据规模、模型大小和翻译方向数量来推动SLT的前沿。我们对不同的数据进行了大规模的SLT预训练,包括1)嘈杂的多语种YouTube SLT数据,2)平行文本语料库,以及3)通过使用现成的机器翻译模型将视频字幕翻译成其他语言的SLT数据。我们在编码器-解码器架构下使用任务特定的提示统一了不同的预训练任务,并使用预训练的(m/By)T5模型初始化了SLT模型。在How2Sign和FLEURS-ASL#0(ASL到42种口语)上进行的SLT预训练结果表明,数据/模型扩展和跨语言跨模态转移的重要性,以及零-shot SLT的可行性。我们在涵盖5种手语的5个下游开放领域SLT基准测试上微调了预训练的SLT模型。实验结果显示,与基准模型相比,质量有了显著的提高,并且大幅超过了以前的最新技术水平(SOTA)。
- 图表
- 解决问题本论文旨在解决手语翻译中的跨语言问题,通过大规模预训练数据、模型规模和翻译方向的扩展,推动手语翻译技术的发展。
- 关键思路论文通过预训练模型和跨语言跨模态迁移的方式,提高了手语翻译的效果,实现了零样本学习。
- 其它亮点论文采用了大规模的预训练数据,包括多语言YouTube手语翻译数据、平行文本语料和机器翻译模型翻译视频字幕。同时,论文还使用了编码器-解码器架构和任务特定提示来统一不同的预训练任务。论文在5个手语翻译基准测试集上进行了实验,实验结果表明,与基线模型相比,论文提出的方法在质量上有较大的提升,超过了之前的最新技术。
- 最近的相关研究包括:《Sign Language Transformer: Joint End-to-end Sign Language Recognition and Translation》、《A Survey on Sign Language Recognition and Translation: Approaches, Systems, Challenges and Future Research Directions》等。
沙发等你来抢
去评论
评论
沙发等你来抢