ControlVAR: Exploring Controllable Visual Autoregressive Modeling

简介

随着扩散模型（DMs）的出现，特别是在控制到图像生成等任务中，条件视觉生成取得了显著的进展。然而，高昂的计算成本、高推理延迟以及与大型语言模型（LLMs）集成的困难，使得探索DMs的替代方案成为必要。本文介绍了ControlVAR，这是一个新颖的框架，它探索了视觉自回归（VAR）建模中的像素级控制，以实现灵活高效的条件生成。与传统的条件模型不同，它学习图像和像素级条件的联合分布，并在测试期间施加条件控制。为了增强联合建模，我们采用了下一尺度AR预测范例，并统一了控制和图像表示。提出了一种教师强制指导策略，进一步促进了联合建模的可控生成。广泛的实验表明，与流行的条件DMs（例如ControlNet和T2I-Adaptor）相比，ControlVAR在各种条件生成任务中具有更优越的效力和灵活性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决条件视觉生成中存在的计算成本高、推理延迟长、难以与大型语言模型集成等挑战，探索基于像素级控制的视觉自回归建模，实现灵活高效的条件生成。
关键思路

ControlVAR是一种新的框架，通过联合建模图像和像素级条件分布，实现灵活的条件生成。相比传统的条件模型，ControlVAR采用下一尺度自回归预测范式，统一控制和图像表示，并提出了教师强制指导策略，进一步促进联合建模的可控生成。
其它亮点

论文设计了大量实验验证了ControlVAR在各种条件生成任务中的优越性和灵活性，与流行的条件扩散模型（DMs）如ControlNet和T2I-Adaptor相比，效果更好。论文还开源了代码，并使用了多个数据集，包括COCO、FFHQ等。
相关研究

最近的相关研究包括PixelCNN、PixelVAE、Glow、StyleGAN等。

ControlVAR: Exploring Controllable Visual Autoregressive Modeling

提问交流

提问交流