Re-Thinking Inverse Graphics With Large Language Models

向作者提问

NEW

简介

反向图形学是计算机视觉和图形学中的一个基本挑战，它的任务是将图像反转成物理变量，以便在渲染时能够复制观察到的场景。将图像分解成其组成元素，例如产生它的3D场景中物体的形状、颜色和材料属性，需要对环境有全面的理解。这种要求限制了现有的精心设计的方法在不同领域之间的泛化能力。受大型语言模型（LLM）的零样本能力启发，能够推广到新领域，我们研究了利用这些模型中编码的广泛世界知识来解决反向图形学问题的可能性。为此，我们提出了反向图形学大型语言模型（IG-LLM），这是一个以LLM为中心的反向图形学框架，可以将视觉嵌入自回归地解码为结构化、组合的3D场景表示。我们加入了一个冻结的预训练视觉编码器和一个连续的数值头，以实现端到端的训练。通过我们的研究，我们展示了LLM在没有使用图像空间监督的情况下，通过下一个令牌的预测，促进反向图形学的潜力。我们的分析为利用LLM的视觉知识进行关于图像的精确空间推理开辟了新的可能性。我们将发布我们的代码和数据，以确保我们的研究的可重复性，并在https://ig-llm.is.tue.mpg.de/上促进未来的研究。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文探究了利用大型语言模型在没有图像空间监督的情况下解决逆向图形问题的可能性。该问题要求将图像反演成物理变量，以便在渲染时重现观察到的场景。
关键思路

论文提出了一个逆向图形框架，即基于大型语言模型的逆向图形大语言模型（IG-LLM），它将视觉嵌入自回归地解码成结构化、组合的3D场景表示。其中包括一个冻结的预训练视觉编码器和一个连续的数字头，以实现端到端的训练。通过研究，论文证明了LLM在没有使用图像空间监督的情况下通过下一个标记预测有助于促进逆向图形的潜力。
其它亮点

论文的亮点包括使用大型语言模型解决逆向图形问题的可能性，通过下一个标记预测实现逆向图形，实验结果表明该方法的有效性，代码和数据集已经公开，可以促进未来研究。
相关研究

最近的相关研究包括使用神经网络进行逆向图形的研究，如《Neural Scene Graphs for Dynamic Scenes》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问