Lay-A-Scene: Personalized 3D Object Arrangement Using Text-to-Image Priors

简介

目前，生成3D视觉场景是视觉生成AI的前沿，但是当前的3D生成技术在生成具有多个高分辨率对象的场景方面存在困难。在这里，我们介绍了Lay-A-Scene，它解决了Open-set 3D Object Arrangement的任务，有效地安排未见过的对象。给定一组3D对象，任务是在场景中找到这些对象的合理排列。我们通过利用预训练的文本到图像模型来解决这个任务。我们个性化模型并解释如何生成包含多个预定义对象的场景图像而不忽略任何一个对象。然后，我们描述如何通过在2D生成的图像上找到对象的一致投影来推断3D姿态和排列。我们使用Objaverse中的3D对象和人类评估者评估Lay-A-Scene的质量，并发现它经常生成连贯且可行的3D对象排列。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决生成多个高分辨率对象的场景的三维可视化难题，提出了Lay-A-Scene的解决方案，通过预训练的文本到图像模型来有效地排列未见过的对象。
关键思路

Lay-A-Scene利用预训练的文本到图像模型来生成包含多个预定义对象的场景图像，并通过在二维生成的图像上找到对象的一致投影来推断对象的三维姿态和排列。
其它亮点

论文使用Objaverse数据集和人类评分者对Lay-A-Scene进行了评估，并发现它经常生成连贯和可行的三维对象排列。值得关注的是，Lay-A-Scene不会忽略任何预定义对象，实验结果表明其在Open-set 3D Object Arrangement任务上具有很好的性能。
相关研究

最近在这个领域中，还有一些相关的研究，如Generative Query Network (GQN)和Neural Scene Graph (NSG)。

Lay-A-Scene: Personalized 3D Object Arrangement Using Text-to-Image Priors

提问交流

提问交流