Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

向作者提问

NEW

简介

将视觉视为逆向图形学（Vision-as-inverse-graphics）——即从图像中重建出可编辑的程序——这一任务，对视觉-语言模型（VLMs）而言仍极具挑战性，因其在单样本（one-shot）设定下天然缺乏细粒度的空间定位能力。为应对该问题，我们提出VIGA（Vision-as-Inverse-Graphics Agent，视觉即逆向图形学智能体），一种符号逻辑与视觉感知相互交织、持续交叉验证的多模态协同推理框架。VIGA通过一个高度耦合的“生成—渲染—检验”闭环流程运行：首先合成符号化程序，再将其投影为可视化的渲染结果，继而比对渲染输出与原始图像之间的差异，并据此指导程序的迭代式修正。凭借高层次语义理解能力以及持续演化的多模态记忆机制，VIGA能够在长程任务中维持基于证据的渐进式修改。这一无需训练、任务无关的通用框架，可无缝支持二维文档生成、三维场景重建、多步骤三维编辑以及四维物理交互建模等多样化任务。最后，我们构建了BlenderBench——一个面向“视觉到代码”转换的高难度基准评测集。实验结果表明，相较于各类单样本基线方法，VIGA在BlenderGym上的准确率提升达35.32%，在SlideBench上提升达117.17%，在本文提出的BlenderBench上更实现了124.70%的显著提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Vision-Language Models（VLMs）在单样本（one-shot）设置下缺乏细粒度空间定位能力，难以将图像逆向解析为可编辑、可执行的图形程序（即实现vision-as-inverse-graphics），导致其无法可靠地生成结构化、几何一致且可编辑的视觉内容（如2D文档、3D场景、4D物理交互）。
关键思路

提出VIGA——一种无需训练、任务无关的‘代码-渲染-检验’闭环代理框架：通过符号程序合成→可微/确定性渲染→视觉-逻辑跨模态比对→基于差异的迭代修正，实现视觉与符号逻辑的主动交叉验证；核心创新在于摒弃端到端学习，转而构建一个推理驱动、记忆增强、证据持续累积的多模态认知循环。
其它亮点

首次实现跨维度（2D→3D→4D）统一的视觉到可执行代码生成；完全免训练（training-free）、支持长程多步编辑；引入BlenderBench新基准（含复杂拓扑、材质、物理约束的Blender场景逆向编程任务）；在BlenderGym、SlideBench和BlenderBench上分别提升35.32%、117.17%、124.70%准确率；代码与BlenderBench已开源；未来方向包括：扩展至神经符号编译器、耦合物理引擎进行闭环仿真优化、构建人类反馈驱动的编辑意图对齐机制。
相关研究

NeRF-based Inverse Graphics (Mildenhall et al., ECCV 2020); DreamFusion (Poole et al., NeurIPS 2022); Code as Policies (Chen et al., CoRL 2023); LVM: Language-Vision-Motor Agents (Liu et al., ICML 2024); Program-Guided Vision Models (Zhang et al., CVPR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问