Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning

2024年06月21日
  • 简介
    最近,交错式大型多模型(LMMs)在少样本学习中的成功表明,在具有许多示例的情境学习(ICL)中可能很有前途。然而,这种多样本多模态ICL设置有一个关键问题:它在预训练时设置的模型上下文长度基本上是有限制的。在多模态领域中,这个问题尤为突出,因为它需要处理文本和图像,需要额外的标记。这促使我们需要一种多模态方法,将许多示例压缩成较少的标记,而不需要微调。在这项工作中,我们利用多模态任务向量(MTV)来使LMM能够执行多模态、多样本的情境学习——这是一种压缩在模型的注意力头中的紧凑隐式表示。具体而言,我们首先证明了LMM中存在这样的MTV,然后利用这些提取出的MTV来实现各种视觉语言任务的多样本情境学习。我们的实验表明,MTV的性能可以随着压缩的示例数量而扩展,并且可以推广到类似的域外任务,而不需要额外的上下文长度进行推理。
  • 图表
  • 解决问题
    如何解决多模态多样本场景下模型上下文长度的限制问题?
  • 关键思路
    通过提取多模态任务向量(MTV)来压缩多样本,实现多样本上下文学习,无需微调,同时提高模型的泛化能力。
  • 其它亮点
    论文提出了一种多模态多样本场景下的模型学习方法,通过提取MTV来压缩多样本,从而实现多样本上下文学习,无需微调,同时提高模型的泛化能力。实验结果表明,该方法具有较好的性能和泛化能力,并且可以应用于不同的视觉和语言任务中。
  • 相关研究
    与本文相关的研究包括:《Few-shot Learning with Graph Neural Networks》、《Meta-Learning with Differentiable Convex Optimization》、《Learning to Learn from Noisy Labeled Data》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论