- 简介我们提出了Chameleon,这是一组早期融合基于令牌的混合模态模型,能够理解和生成任意顺序的图像和文本。我们概述了一个从一开始就稳定的训练方法,一个对齐配方,以及一个专为早期融合、基于令牌、混合模态设置而定制的架构参数化。该模型在广泛的任务上进行了评估,包括视觉问答、图像字幕、文本生成、图像生成和长形混合模态生成。Chameleon展示了广泛和普遍的能力,包括在图像字幕任务中的最先进表现,胜过Llama-2在仅文本任务中,同时与Mixtral 8x7B和Gemini-Pro等模型竞争,并且能够进行非平凡的图像生成,所有这些都在一个单一的模型中完成。它还在新的长形混合模态生成评估中与更大的模型(包括Gemini Pro和GPT-4V)进行人类判断的表现相匹配或超过,其中提示或输出包含混合的图像和文本序列。Chameleon标志着在全面多模态文档的统一建模方面迈出了重要的一步。
- 图表
- 解决问题Chameleon试图解决如何在任意顺序下理解和生成图像和文本的问题。这是否是一个新问题?
- 关键思路Chameleon是一种早期融合的基于令牌的混合模态模型,可以在任意顺序下理解和生成图像和文本。它的关键思路是提出了一种适用于早期融合、基于令牌、混合模态设置的稳定训练方法、对齐配方和架构参数化。
- 其它亮点Chameleon在广泛的任务中进行了评估,包括视觉问答、图像字幕、文本生成、图像生成和长格式混合模态生成。它在图像字幕任务中表现出了最先进的性能,在纯文本任务中优于Llama-2,同时与Mixtral 8x7B和Gemini-Pro等模型竞争,在单个模型中实现了非平凡的图像生成。在新的长格式混合模态生成评估中,它还在人类判断方面匹配或超过了更大的模型,包括Gemini Pro和GPT-4V。Chameleon标志着在全面多模态文档的统一建模方面迈出了重要一步。
- 最近在这个领域中,还有一些相关研究,如Llama-2、Mixtral和Gemini-Pro。
沙发等你来抢
去评论
评论
沙发等你来抢