SignClip: Leveraging Mouthing Cues for Sign Language Translation by Multimodal Contrastive Fusion

向作者提问

NEW

简介

手语翻译（SLT）旨在将手语视频中的自然语言翻译出来，成为实现包容性沟通的重要桥梁。尽管近期的研究已经利用强大的视觉主干网络和大语言模型取得了进展，但大多数方法主要关注手势（即手动信号），而往往忽略了诸如口型变化等非手动线索。事实上，口型在手语中传递着重要的语言信息，并在区分视觉上相似的手语动作方面发挥着关键作用。本文提出了一种名为SignClip的新框架，以提升手语翻译的准确性。该框架融合了手动与非手动线索，具体包括手势和嘴唇运动特征。此外，SignClip引入了一种具有多级对齐目标的分层对比学习框架，确保手语-嘴唇以及视觉-文本模态之间的语义一致性。在两个基准数据集PHOENIX14T和How2Sign上的大量实验结果证明了我们方法的优越性。例如，在PHOENIX14T数据集的无词表征（Gloss-free）设置下，SignClip超越了此前最先进的SpaMo模型，BLEU-4指标从24.32提升至24.71，ROUGE指标从46.57提升至48.38。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决手语翻译（SLT）中忽略非手动信号（如口型）的问题。目前大多数方法主要关注手势（手动信号），而忽略了口型等非手动线索，这些信息在手语中对于消除视觉相似手势的歧义至关重要。
关键思路

论文提出SignClip，一个融合手动和非手动信号（手势与口型运动）的新框架，并引入一种多层级对比学习机制，以确保跨手势-口型和视觉-文本模态的语义一致性。
其它亮点

1. SignClip在PHOENIX14T和How2Sign两个基准数据集上进行了广泛实验，验证了其性能优于现有方法。 2. 在PHOENIX14T的Gloss-free设置下，SignClip在BLEU-4和ROUGE指标上均优于当前SOTA模型SpaMo。 3. 该方法结合了手势和口型特征，并通过多层级对比学习增强模态间语义对齐。 4. 论文强调了非手动信号在SLT中的重要性，为后续研究提供了新的方向。 5. 是否开源代码未在摘要中提及，建议进一步查阅论文正文或项目主页。
相关研究

1. SpaMo: Spatial-Motion Modeling for Sign Language Translation 2. SignBERT: A Pre-trained Model for Sign Language Understanding 3. Unified Vision-Language Pre-training for Sign Language Recognition and Translation 4. LipNet: End-to-End Sentence-Level Lipreading 5. How2Sign: A Corpus for American Sign Language and Homesign Communication

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问