VL-ICL Bench: The Devil in the Details of Benchmarking Multimodal In-Context Learning

2024年03月19日
  • 简介
    大型语言模型(LLMs)以其在上下文中的紧急学习(ICL)而闻名——即在提供少量示例作为提示的情况下,能够快速适应新任务,而无需更新模型的权重。建立在LLMs之上的视觉大型语言模型(VLLMs)在识别、推理和基础方面取得了显著进展。然而,对于多模式ICL的研究主要集中在少样本视觉问答(VQA)和图像字幕生成上,我们将展示这两种方法既没有充分利用ICL的优势,也没有测试其局限性。多模式ICL的更广泛能力和局限性仍未得到充分探索。在本研究中,我们引入了一个全面的基准VL-ICL Bench,用于多模式上下文学习,涵盖了广泛的任务,包括以图像和文本作为输入和输出的不同类型的挑战,从感知到推理和长上下文长度。我们评估了最先进的VLLMs在这个基准测试套件上的能力,揭示了它们的各种优点和缺点,并表明即使是最先进的模型,如GPT-4,也会觉得这些任务具有挑战性。通过强调一系列新的ICL任务以及现有模型的相关优点和局限性,我们希望我们的数据集能够激发未来的工作,提高VLLMs的上下文学习能力,并激发利用VLLM ICL的新应用。代码和数据集可在https://github.com/ys-zong/VL-ICL上获得。
  • 图表
  • 解决问题
    本论文旨在探索多模态上下文学习的能力和局限性,提出了一个全面的基准测试VL-ICL Bench,包含了多种涉及图像和文本输入输出的任务,并且涵盖了从感知到推理和长上下文长度的不同类型挑战。
  • 关键思路
    本论文提出了一种在多模态上下文学习方面的全面基准测试VL-ICL Bench,评估了最先进的VLLMs模型在这个基准测试上的能力,并揭示了它们的各种优点和缺点,同时表明即使是最先进的模型,如GPT-4,也会在一些任务上感到挑战。
  • 其它亮点
    本论文的亮点包括提出了一个全面的基准测试VL-ICL Bench,涵盖了多种涉及图像和文本输入输出的任务,并且涵盖了从感知到推理和长上下文长度的不同类型挑战。论文评估了最先进的VLLMs模型在这个基准测试上的能力,并揭示了它们的各种优点和缺点。论文还提出了一些新的ICL任务,可以激发未来的研究工作和新的应用。代码和数据集都已经开源。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Few-shot Learning with Global Class Representations》;2.《Few-Shot Learning with Graph Neural Networks》;3.《Few-Shot Learning via Embedding Adaptation with Set-to-Set Functions》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论