Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning

2024年05月09日
  • 简介
    目前有效构建大型视觉-语言(VL)模型的解决方案遵循两步走的范式:将预训练视觉编码器的输出投影到预训练语言模型的输入空间作为视觉提示;然后通过端到端参数高效微调(PEFT)将模型转移到下游VL任务。然而,这种范式仍然存在低效性,因为它显著增加了语言模型的输入长度。本文与将视觉提示集成到输入中相反,将视觉提示视为有助于语言模型解决与视觉信息相关任务的附加知识。受到语言模型的前馈网络(FFN)作为“键值内存”的发现的启发,我们引入了一种新的方法,称为内存空间视觉提示(MemVP),其中将视觉提示与FFN的权重连接以进行视觉知识注入。各种VL任务和语言模型的实验结果表明,MemVP显著减少了微调VL模型的训练时间和推理延迟,并超过了以前的PEFT方法的性能。代码:https://github.com/JieShibo/MemVP。
  • 图表
  • 解决问题
    论文旨在解决如何更高效地构建大型视觉语言模型的问题,通过提出一种新的方法来注入视觉知识,以提高模型的性能和效率。
  • 关键思路
    该论文提出了一种新的方法,称为记忆空间视觉提示(MemVP),其中将视觉提示与语言模型的前馈网络(FFN)权重连接起来,以注入视觉知识。这种方法可以大大减少语言模型的输入长度,提高模型的训练速度和推理延迟。
  • 其它亮点
    论文在各种视觉语言任务和语言模型上进行了实验,结果表明MemVP显著降低了微调后的视觉语言模型的训练时间和推理延迟,并且优于以前的PEFT方法。论文提供了开源代码。
  • 相关研究
    最近的相关研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论