SDPT: Synchronous Dual Prompt Tuning for Fusion-based Visual-Language Pre-trained Models

2024年07月16日
  • 简介
    Prompt tuning方法在大型预训练模型上实现了参数高效微调的显著成功。然而,将其应用于基于双模态融合的视觉语言预训练模型(VLPMs),如GLIP,遇到了问题。现有的Prompt tuning方法没有有效解决不同模态中标记的模态映射和对齐问题,导致了差劲的转移泛化。为了解决这个问题,我们提出了同步双Prompt tuning(SDPT)。SDPT在建立的模态对齐空间中初始化一组可学习的统一原型标记,以表示文本和图像模态的对齐语义,用于下游任务。此外,SDPT建立了反线性投影,无需训练即可将统一原型标记的信息嵌入到不同模态的输入空间中。反线性投影允许统一原型标记同步表示两种模态,并使SDPT能够在不同模态提示之间共享文本和图像的统一语义,用于下游任务。实验结果表明,SDPT协助基于融合的VLPMs在各种情况下只使用0.04%的模型参数进行训练,取得了优异的结果,优于其他单模态或双模态方法。代码将发布在https://github.com/wuyongjianCODE/SDPT。
  • 图表
  • 解决问题
    本论文旨在解决双模态融合的视觉语言预训练模型中存在的模态映射和对齐问题,从而提高模型在下游任务中的泛化性能。
  • 关键思路
    SDPT方法通过在建立的模态对齐空间中初始化一组可学习的统一原型标记来解决双模态融合的视觉语言预训练模型中存在的模态映射和对齐问题,并建立反线性投影,无需进行训练即可将统一原型标记的信息嵌入到不同模态的输入空间中。
  • 其它亮点
    SDPT方法仅使用0.04%的模型参数进行训练,在各种场景下都能帮助融合型VLPMs实现优越的结果,优于其他单模态或双模态方法。论文作者还将代码开源。
  • 相关研究
    在双模态融合的视觉语言预训练模型方面,最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论