Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

2024年06月10日
  • 简介
    我们介绍了一种新的图像生成模型系列LlamaGen,它将大型语言模型的原始“下一个令牌预测”范例应用于视觉生成领域。这是对于没有对视觉信号进行归纳偏置的普通自回归模型(例如Llama)是否能够在适当缩放的情况下实现最先进的图像生成性能的肯定回答。我们重新审视了图像分词器的设计空间、图像生成模型的可扩展性属性以及它们的训练数据质量。这项探索的结果包括:(1)一个图像分词器,下采样比率为16,重构质量为0.94 rFID,ImageNet基准测试中代码本使用率为97%。(2)一系列条件类图像生成模型,参数范围从111M到3.1B,ImageNet 256x256基准测试中达到2.18 FID,优于流行的扩散模型,如LDM、DiT。(3)一种文本条件的图像生成模型,具有775M个参数,经过LAION-COCO的两阶段训练和高美学质量图像,展示了视觉质量和文本对齐的竞争性表现。(4)我们验证了LLM服务框架在优化图像生成模型推理速度方面的有效性,并实现了326%到414%的加速。我们发布了所有模型和代码,以促进视觉生成和多模基础模型的开源社区。
  • 图表
  • 解决问题
    本论文试图探讨在视觉生成领域中,无归纳偏见的自回归模型是否可以通过适当的扩展实现最先进的图像生成性能。其主要目的是在图像生成任务中应用原始的“下一个令牌预测”模型,即LlamaGen,以解决当前图像生成领域中的问题。
  • 关键思路
    本文的关键思路是将大型语言模型的原始“下一个令牌预测”范例应用于视觉生成领域。作者重新审视了图像分词器的设计空间、图像生成模型的可扩展性属性以及它们的训练数据质量。结果包括:1.一个图像分词器,下采样比率为16,重建质量为0.94 rFID,ImageNet基准测试中代码本使用率达97%。2.一系列条件图像生成模型,参数范围从111M到3.1B,ImageNet 256x256基准测试中实现了2.18 FID,优于流行的扩散模型如LDM、DiT。3.一个文本条件图像生成模型,参数为775M,通过对LAION-COCO和高审美质量图像的两阶段训练,展示了视觉质量和文本对齐的竞争性表现。4.作者验证了LLM服务框架在优化图像生成模型推理速度方面的有效性,并实现了326% - 414%的加速。作者发布了所有模型和代码,以促进视觉生成和多模式基础模型的开源社区。
  • 其它亮点
    本文的亮点在于:1.提出了一种新的图像生成模型LlamaGen,它应用了大型语言模型的原始“下一个令牌预测”范例。2.实现了一系列条件图像生成模型,性能优于流行的扩散模型。3.实现了文本条件图像生成模型,展示了视觉质量和文本对齐的竞争性表现。4.作者验证了LLM服务框架在优化图像生成模型推理速度方面的有效性,并实现了显著加速。作者发布了所有模型和代码,以促进视觉生成和多模式基础模型的开源社区。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,基于扩散的模型LDM和DiT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论