- 简介之前的开源大型多模态模型(LMMs)存在几个限制:(1)它们通常缺乏本地集成,需要适配器来将视觉表示与预训练的大型语言模型(LLMs)对齐;(2)许多模型仅限于单模态生成;(3)虽然有些支持多模态生成,但它们依赖于单独的扩散模型进行视觉建模和生成。为了缓解这些限制,我们提出了Anole,这是一个开放、自回归的、本地的大型多模态模型,用于交错的图像-文本生成。我们基于Meta AI的Chameleon构建Anole,采用一种创新的微调策略,既具有数据效率又具有参数效率。Anole展示了高质量、连贯的多模态生成能力。我们已经开源了我们的模型、训练框架和指导微调数据。
-
- 图表
- 解决问题Anole试图解决的问题是以前的开源大型多模态模型(LMMs)存在的限制,包括缺乏本地集成、单模态生成的限制以及对视觉建模和生成依赖于分离的扩散模型。作者试图提出一种新的方法来缓解这些限制。
- 关键思路论文的关键思路是建立一个开放的、自回归的、本地的大型多模态模型,用于交替的图像-文本生成。作者采用了一种创新的微调策略,既节省数据,又节省参数。这种方法可以使模型具有高质量、连贯的多模态生成能力。
- 其它亮点论文开源了他们的模型、训练框架和指导调整数据。实验使用了多个数据集,包括COCO、Conceptual Captions和SBU Captions。结果表明,Anole在多个评估指标上都表现出色。值得深入研究的工作包括如何将Anole扩展到更多模态和更大规模的数据集上。
- 最近的相关研究包括CLIP、DALL-E和ViLBERT。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流