Chameleon: Mixed-Modal Early-Fusion Foundation Models

2024年05月16日
  • 简介
    我们提出了Chameleon,这是一组早期融合基于令牌的混合模态模型,能够理解和生成任意顺序的图像和文本。我们概述了一个从一开始就稳定的训练方法,一个对齐配方,以及一个专为早期融合、基于令牌、混合模态设置而定制的架构参数化。该模型在广泛的任务上进行了评估,包括视觉问答、图像字幕、文本生成、图像生成和长形混合模态生成。Chameleon展示了广泛和普遍的能力,包括在图像字幕任务中的最先进表现,胜过Llama-2在仅文本任务中,同时与Mixtral 8x7B和Gemini-Pro等模型竞争,并且能够进行非平凡的图像生成,所有这些都在一个单一的模型中完成。它还在新的长形混合模态生成评估中与更大的模型(包括Gemini Pro和GPT-4V)进行人类判断的表现相匹配或超过,其中提示或输出包含混合的图像和文本序列。Chameleon标志着在全面多模态文档的统一建模方面迈出了重要的一步。
  • 图表
  • 解决问题
    Chameleon试图解决如何在任意顺序下理解和生成图像和文本的问题。这是否是一个新问题?
  • 关键思路
    Chameleon是一种早期融合的基于令牌的混合模态模型,可以在任意顺序下理解和生成图像和文本。它的关键思路是提出了一种适用于早期融合、基于令牌、混合模态设置的稳定训练方法、对齐配方和架构参数化。
  • 其它亮点
    Chameleon在广泛的任务中进行了评估,包括视觉问答、图像字幕、文本生成、图像生成和长格式混合模态生成。它在图像字幕任务中表现出了最先进的性能,在纯文本任务中优于Llama-2,同时与Mixtral 8x7B和Gemini-Pro等模型竞争,在单个模型中实现了非平凡的图像生成。在新的长格式混合模态生成评估中,它还在人类判断方面匹配或超过了更大的模型,包括Gemini Pro和GPT-4V。Chameleon标志着在全面多模态文档的统一建模方面迈出了重要一步。
  • 相关研究
    最近在这个领域中,还有一些相关研究,如Llama-2、Mixtral和Gemini-Pro。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论