Chameleon: Mixed-Modal Early-Fusion Foundation Models

简介

我们提出了Chameleon，这是一组早期融合基于令牌的混合模态模型，能够理解和生成任意顺序的图像和文本。我们概述了一个从一开始就稳定的训练方法，一个对齐配方，以及一个专为早期融合、基于令牌、混合模态设置而定制的架构参数化。该模型在广泛的任务上进行了评估，包括视觉问答、图像字幕、文本生成、图像生成和长形混合模态生成。Chameleon展示了广泛和普遍的能力，包括在图像字幕任务中的最先进表现，胜过Llama-2在仅文本任务中，同时与Mixtral 8x7B和Gemini-Pro等模型竞争，并且能够进行非平凡的图像生成，所有这些都在一个单一的模型中完成。它还在新的长形混合模态生成评估中与更大的模型（包括Gemini Pro和GPT-4V）进行人类判断的表现相匹配或超过，其中提示或输出包含混合的图像和文本序列。Chameleon标志着在全面多模态文档的统一建模方面迈出了重要的一步。
作者讲解·3
- 讲解视频
- 相关报道(3)
图表
解决问题

Chameleon试图解决如何在任意顺序下理解和生成图像和文本的问题。这是否是一个新问题？
关键思路

Chameleon是一种早期融合的基于令牌的混合模态模型，可以在任意顺序下理解和生成图像和文本。它的关键思路是提出了一种适用于早期融合、基于令牌、混合模态设置的稳定训练方法、对齐配方和架构参数化。
其它亮点

Chameleon在广泛的任务中进行了评估，包括视觉问答、图像字幕、文本生成、图像生成和长格式混合模态生成。它在图像字幕任务中表现出了最先进的性能，在纯文本任务中优于Llama-2，同时与Mixtral 8x7B和Gemini-Pro等模型竞争，在单个模型中实现了非平凡的图像生成。在新的长格式混合模态生成评估中，它还在人类判断方面匹配或超过了更大的模型，包括Gemini Pro和GPT-4V。Chameleon标志着在全面多模态文档的统一建模方面迈出了重要一步。
相关研究

最近在这个领域中，还有一些相关研究，如Llama-2、Mixtral和Gemini-Pro。

Chameleon: Mixed-Modal Early-Fusion Foundation Models

提问交流

提问交流