Layout Generation Agents with Large Language Models

简介

近年来，对于可定制的三维虚拟空间的需求越来越大。由于创建这些虚拟空间需要大量人力，因此需要提高虚拟空间创建的效率。尽管现有的研究提出了自动生成布局（如平面图和家具布置）的方法，但这些方法仅根据用户指令生成指示布局结构的文本，而没有利用生成过程中获得的信息。本研究提出了一种使用GPT-4V多模态大语言模型驱动的布局生成系统，并验证了其有效性。具体而言，语言模型操作代理程序依次放置虚拟空间中的对象，从而生成反映用户指令的布局。实验结果证实，我们提出的方法可以以高成功率生成反映用户指令的虚拟空间。此外，我们通过消融研究成功地确定了有助于行为生成性能提高的元素。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种使用GPT-4V多模态大语言模型的代理驱动布局生成系统，以实现高效的3D虚拟空间生成。研究的问题是如何在生成过程中利用所获得的信息来生成反映用户指令的布局。
关键思路

论文提出了一种使用代理来逐步放置虚拟空间中的对象的方法，从而生成反映用户指令的布局。相比现有的方法，该方法能够高效地生成虚拟空间，并取得了较高的成功率。
其它亮点

实验结果证明了该方法可以高成功率地生成反映用户指令的虚拟空间。此外，通过消融实验，成功地确定了有利于行为生成性能提高的因素。
相关研究

最近的相关研究包括使用GAN生成虚拟空间的方法，以及使用强化学习生成虚拟空间的方法。相关论文包括：《Generative Adversarial Networks for 3D Object Generation》和《Learning to Generate 3D Layouts with Spatial RL》。

Layout Generation Agents with Large Language Models

提问交流

提问交流