Many-Shot In-Context Learning in Multimodal Foundation Models

2024年05月16日
  • 简介
    大型语言模型被广泛认为在少量示例的情境学习(ICL)方面非常有效。最近,多模态基础模型的发展使得其具有了前所未有的长上下文窗口,为探索其在更多示例下执行ICL的能力提供了机会。在这项工作中,我们评估了从少量示例到多量示例ICL的多模态基础模型的性能。我们在跨多个领域(自然图像、医学图像、遥感和分子图像)和任务(多类、多标签和细粒度分类)的10个数据集上对GPT-4o和Gemini 1.5 Pro进行了基准测试。我们观察到,包括多达近2000个多模态演示示例在内的多量示例ICL相对于少量示例(<100个示例)ICL在所有数据集上都带来了显著的改进。此外,Gemini 1.5 Pro的性能在许多数据集上一直呈对数线性改进,直到测试的最大示例数。鉴于需要长提示的高推理成本,我们还探讨了在单个API调用中批处理多个查询的影响。我们展示了批处理多达50个查询可以在零示例和多示例ICL下带来性能改进,在多个数据集上零示例设置获得了显著的增益,同时大大降低了每个查询的成本和延迟。最后,我们测量了模型的ICL数据效率,即模型从更多演示示例中学习的速度。我们发现,虽然GPT-4o和Gemini 1.5 Pro在数据集上实现了类似的零示例性能,但在大多数数据集上,Gemini 1.5 Pro的ICL数据效率更高。我们的结果表明,多量示例ICL可以使用户有效地将多模态基础模型适应到新的应用和领域。我们的代码库公开可用于https://github.com/stanfordmlgroup/ManyICL。
  • 作者讲解·2
  • 图表
  • 解决问题
    本文旨在评估多模态基础模型在从少量演示示例到大量演示示例的情况下,执行上下文学习(ICL)的性能。作者使用10个跨多个领域和任务的数据集对GPT-4o和Gemini 1.5 Pro进行基准测试,以研究多样化的演示示例数量对模型性能的影响。
  • 关键思路
    文章的关键思路是评估多模态基础模型在从少量演示示例到大量演示示例的情况下,执行上下文学习(ICL)的性能。作者发现,大量的演示示例数量(高达近2000个)可以显著提高模型性能,并且批处理多个查询可以在零样本和多样本ICL下提高性能,同时大大降低每个查询的成本和延迟。
  • 其它亮点
    本文的实验设计非常详细,使用了10个跨多个领域和任务的数据集对GPT-4o和Gemini 1.5 Pro进行基准测试,并且公开了代码库。作者发现,大量的演示示例数量可以显著提高模型性能,并且批处理多个查询可以在零样本和多样本ICL下提高性能,同时大大降低每个查询的成本和延迟。作者还发现,在大多数数据集上,Gemini 1.5 Pro比GPT-4o具有更高的ICL数据效率。
  • 相关研究
    最近的相关研究包括使用不同类型的模型进行上下文学习,如BERT和GPT-3。其中一些研究的论文标题包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《Language Models are Few-Shot Learners》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问