Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

2024年12月05日
  • 简介
    我们介绍了Infinity,一种基于位的视觉自回归模型,能够根据语言指令生成高分辨率、逼真的图像。Infinity在位级令牌预测框架下重新定义了视觉自回归模型,采用无限词汇量的分词器和分类器以及位级自我校正机制,显著提升了生成能力和细节表现。通过理论上将分词器的词汇量扩展到无穷大,并同时扩大变压器的规模,我们的方法相比传统的VAR模型显著释放了强大的扩展能力。Infinity为自回归文本到图像模型树立了新的标杆,性能超过了顶级的扩散模型如SD3-Medium和SDXL。值得注意的是,Infinity在GenEval基准测试中将得分从0.62提升至0.73,在ImageReward基准测试中将得分从0.87提升至0.96,胜率达到了66%。无需额外优化,Infinity可以在0.8秒内生成高质量的1024x1024图像,比SD3-Medium快2.6倍,成为最快的文本到图像模型。我们将发布模型和代码,以促进对Infinity在视觉生成和统一分词器建模方面的进一步探索。
  • 图表
  • 解决问题
    论文试图通过提出一种名为Infinity的新模型来解决生成高分辨率、逼真图像的问题,特别是在基于语言指令的情况下。这是一个在文本到图像生成领域内不断探索和改进的问题。
  • 关键思路
    关键思路在于重新定义了视觉自回归模型,采用了一种无限词汇量的分词器与分类器的框架,结合位级自我修正机制,显著提升了生成能力和细节表现。这种无限扩展的词汇量和并行扩展的变换器规模,使模型具有强大的扩展能力,超越了传统的VAR模型。
  • 其它亮点
    论文在多个方面取得了显著成果:1) 在GenEval和ImageReward基准测试中分别提高了分数,实现了66%的胜率;2) 生成1024x1024的高质量图像仅需0.8秒,比SD3-Medium快2.6倍,成为最快的文本到图像模型;3) 论文将开源模型和代码,促进进一步的研究和发展。
  • 相关研究
    最近在这个领域,相关的研究包括:1) Stable Diffusion系列模型,如SD3-Medium和SDXL,这些模型在图像生成质量上表现出色;2) DALL-E 2,通过大规模预训练和微调,在文本到图像生成任务上也取得了显著进展;3) Imagen,由Google Research开发,利用文本-图像对的大规模数据集进行训练,生成高质量的图像。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论