Generative Multimodal Models are In-Context Learners

简介

本文表明，人类能够轻松地在上下文中解决多模态任务（即仅凭少数演示或简单指令），而当前的多模态系统往往难以模仿。在这项工作中，我们展示了大型多模态模型的任务无关上下文学习能力可以通过有效的扩展得到显著增强。我们介绍了Emu2，一个具有370亿参数的生成式多模态模型，使用统一的自回归目标在大规模多模态序列上进行训练。Emu2表现出强大的多模态上下文学习能力，甚至能够解决需要即兴推理的任务，例如视觉提示和基于对象的生成。该模型在多个少样本设置下的多模态理解任务中创下了新纪录。当调整为按照特定指令执行时，Emu2在挑战性任务上进一步实现了新的最新技术，例如大型多模态模型的问答基准测试和开放式主题驱动生成。这些成就表明Emu2可以作为基础模型和广泛多模态任务的通用接口。代码和模型可公开获取以促进未来研究。
图表
解决问题

论文试图展示大型多模态模型的任务无关的上下文学习能力可以通过有效的扩展得到显著提高。同时，论文还试图验证这个模型是否可以作为基础模型和通用接口用于各种多模态任务。
关键思路

论文介绍了Emu2，一个具有370亿参数的生成多模态模型，使用统一的自回归目标在大规模多模态序列上进行训练。Emu2展现了强大的多模态上下文学习能力，甚至能够解决需要即兴推理的任务，例如视觉提示和对象驱动生成。当Emu2被指导遵循特定的指令时，它还在挑战性任务上实现了新的最先进水平，例如用于大型多模态模型的问题回答基准测试和开放式主题驱动生成。
其它亮点

Emu2在多个多模态理解任务的少样本设置上创造了新的记录。实验使用了大规模的多模态序列数据集，并且代码和模型已经公开可用以促进未来的研究。值得注意的是，Emu2可以作为一个基础模型和通用接口用于各种多模态任务。
相关研究

最近在这个领域中，还有一些相关的研究，例如《DALL-E: Creating Images from Text》和《CLIP: Connecting Text and Images》。

Generative Multimodal Models are In-Context Learners

评论