Towards Multimodal In-Context Learning for Vision & Language Models

2024年03月19日
  • 简介
    受到能够真正理解人类语言的大型语言模型(LLM)的出现的启发,人们已经在将其他非语言模态与LLM“理解”对齐方面取得了重大进展,主要是通过将它们的样本转换为一系列嵌入式类语言令牌,直接输入到LLM(解码器)输入流中。然而,到目前为止,对于将LLM的核心能力之一——即上下文学习(ICL)能力转移(和评估)到新兴的视觉语言模型(VLMs)上,尚未给予足够的关注,也就是说,通过上下文图像+文本演示来引导VLMs执行所需的目标下游任务或输出结构。在这项工作中,我们深入分析了一些最先进的VLMs遵循ICL指令的能力,发现它们有些欠缺。我们发现,即使是经过大规模混合模态预训练并被隐式引导使用交错的图像和文本信息(旨在消耗来自多个图像的有用上下文)的模型,在提示少量的(ICL)演示时表现不佳,可能是由于它们缺乏“直接”的ICL指令调整。为了测试这个假设,我们提出了一个简单但令人惊讶地有效的策略,即将常见的VLM对齐框架与ICL支持、方法和课程相结合。我们探索、分析并提供有效数据混合的见解,从而实现了对最强的VLM基线和各种ICL基准的21.03%(平均11.3%)的ICL性能提升。我们还为VLM中的ICL评估贡献了新的基准,并讨论了它们相对于先前技术的优点。
  • 图表
  • 解决问题
    本文旨在探索将In-Context Learning(ICL)能力引入视觉语言模型(VLMs)中的可能性,并提出了一种简单但有效的方法来扩展VLM对ICL支持,以提高其性能。
  • 关键思路
    本文提出了一种扩展常见VLM对ICL支持的框架,并探索了有效的数据组合,以提高ICL性能。这种方法在ICL性能方面取得了21.03%的显著提高。
  • 其它亮点
    本文探索了将ICL引入VLMs中的可能性,并提出了一种简单但有效的扩展框架来提高ICL性能。实验结果表明,该方法在ICL性能方面取得了显著提高。作者还提出了新的ICL评估基准,并讨论了其优点。文章提供了一些值得深入研究的方向。
  • 相关研究
    最近的相关研究包括《Large-Scale Learning of Inferred Entities》、《Multimodal Transformer for Unaligned Multimodal Language Sequences》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论