Improving Continuous Sign Language Recognition with Adapted Image Models

2024年04月12日
  • 简介
    网络规模的弱标记图像-文本对的增加极大地促进了大规模视觉语言模型(例如CLIP)的发展,这些模型在一系列下游任务中展示了令人印象深刻的泛化性能。然而,庞大的模型大小和可用数据的稀缺性限制了它们在下游任务中对整个模型进行微调的应用。此外,完全微调模型容易忘记在预训练阶段获得的通用基本知识,并过度拟合下游数据。为了在保持其泛化能力的同时使这些大型视觉语言模型(例如CLIP)高效地适应连续手语识别(CSLR),我们提出了一种新的策略(AdaptSign)。特别地,采用CLIP作为视觉骨干来提取逐帧特征,其参数被固定,同时引入一组可学习模块来模拟空间手语变化或捕捉时间手语动作。这些额外引入的模块非常轻量级,仅具有3.2%的额外计算量,具有高效率。在此过程中,预训练阶段获取的通用知识在冻结的CLIP骨干中得到了很好的保留。广泛的实验表明,尽管高效,AdaptSign能够在包括PHOENIX14、PHOENIX14-T、CSL-Daily和CSL在内的一系列CSLR基准测试中展示出优越的性能,相对于现有方法。可视化结果显示,AdaptSign能够学习动态关注手语视频中信息丰富的空间区域和跨帧轨迹。
  • 图表
  • 解决问题
    论文提出了一种名为AdaptSign的策略,旨在将大规模视觉语言模型(如CLIP)应用于连续手语识别(CSLR)任务中,以提高效率和泛化性能。
  • 关键思路
    AdaptSign的关键思路是使用CLIP作为视觉骨干提取逐帧特征,固定其参数,然后引入一组可学习模块来捕捉手语的空间变化或时间运动。
  • 其它亮点
    AdaptSign的附加模块非常轻量级,仅增加了3.2%的计算量,并且在保留预训练阶段中获得的通用知识的同时,实现了高效率的模型适应。实验结果表明,AdaptSign在PHOENIX14、PHOENIX14-T、CSL-Daily和CSL等一系列CSLR基准测试中均表现出优异的性能。
  • 相关研究
    近年来,与视觉语言模型和手语识别相关的研究包括:《Unsupervised Learning of Visual-Semantic Embeddings》、《Deep Sign: Hybrid CNN-HMM for Continuous Sign Language Recognition》、《Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论