- 简介随着扩散模型(DMs)的出现,特别是在控制到图像生成等任务中,条件视觉生成取得了显著的进展。然而,高昂的计算成本、高推理延迟以及与大型语言模型(LLMs)集成的困难,使得探索DMs的替代方案成为必要。本文介绍了ControlVAR,这是一个新颖的框架,它探索了视觉自回归(VAR)建模中的像素级控制,以实现灵活高效的条件生成。与传统的条件模型不同,它学习图像和像素级条件的联合分布,并在测试期间施加条件控制。为了增强联合建模,我们采用了下一尺度AR预测范例,并统一了控制和图像表示。提出了一种教师强制指导策略,进一步促进了联合建模的可控生成。广泛的实验表明,与流行的条件DMs(例如ControlNet和T2I-Adaptor)相比,ControlVAR在各种条件生成任务中具有更优越的效力和灵活性。
-
- 图表
- 解决问题论文旨在解决条件视觉生成中存在的计算成本高、推理延迟长、难以与大型语言模型集成等挑战,探索基于像素级控制的视觉自回归建模,实现灵活高效的条件生成。
- 关键思路ControlVAR是一种新的框架,通过联合建模图像和像素级条件分布,实现灵活的条件生成。相比传统的条件模型,ControlVAR采用下一尺度自回归预测范式,统一控制和图像表示,并提出了教师强制指导策略,进一步促进联合建模的可控生成。
- 其它亮点论文设计了大量实验验证了ControlVAR在各种条件生成任务中的优越性和灵活性,与流行的条件扩散模型(DMs)如ControlNet和T2I-Adaptor相比,效果更好。论文还开源了代码,并使用了多个数据集,包括COCO、FFHQ等。
- 最近的相关研究包括PixelCNN、PixelVAE、Glow、StyleGAN等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流