LayoutGPT: Compositional Visual Planning and Generation with Large Language Models
Weixi Feng, Wanrong Zhu, Tsu-jui Fu, Varun Jampani, Arjun Akula, Xuehai He, Sugato Basu, Xin Eric Wang, William Yang Wang
[University of California, Santa Barbara & Google]
LayoutGPT: 用大型语言模型进行构图性视觉规划和生成
要点:
-
动机:为了实现对视觉生成的高度可控性,研究如何利用大型语言模型(LLM)作为视觉规划器,通过从文本条件生成布局,并与视觉生成模型合作,减轻用户在生成过程中复杂输入如布局的负担。 -
方法:提出了LayoutGPT方法,通过使用样式表语言中的上下文视觉演示来增强LLM的视觉规划能力。LayoutGPT可以在多个领域生成合理的布局,包括2D图像和3D室内场景。同时,LayoutGPT在将具有挑战性的语言概念(如数字和空间关系)转化为布局排列方面表现出优越性,以实现忠实的文本到图像生成。 -
优势:LayoutGPT在生成视觉布局方面的性能优于文本到图像模型/系统20-40%,在设计数字和空间正确性的视觉布局方面,与人类用户的性能相当。此外,LayoutGPT在3D室内场景合成方面表现出与监督方法相当的性能,展示了它在多个视觉领域的有效性和潜力。
LayoutGPT是一种使用大型语言模型作为视觉规划器的方法,通过生成合理的布局提高图像生成的性能和用户效率。
https://arxiv.org/abs/2305.15393
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢