- 简介将视觉视为逆向图形学(Vision-as-inverse-graphics)——即从图像中重建出可编辑的程序——这一任务,对视觉-语言模型(VLMs)而言仍极具挑战性,因其在单样本(one-shot)设定下天然缺乏细粒度的空间定位能力。为应对该问题,我们提出VIGA(Vision-as-Inverse-Graphics Agent,视觉即逆向图形学智能体),一种符号逻辑与视觉感知相互交织、持续交叉验证的多模态协同推理框架。VIGA通过一个高度耦合的“生成—渲染—检验”闭环流程运行:首先合成符号化程序,再将其投影为可视化的渲染结果,继而比对渲染输出与原始图像之间的差异,并据此指导程序的迭代式修正。凭借高层次语义理解能力以及持续演化的多模态记忆机制,VIGA能够在长程任务中维持基于证据的渐进式修改。这一无需训练、任务无关的通用框架,可无缝支持二维文档生成、三维场景重建、多步骤三维编辑以及四维物理交互建模等多样化任务。最后,我们构建了BlenderBench——一个面向“视觉到代码”转换的高难度基准评测集。实验结果表明,相较于各类单样本基线方法,VIGA在BlenderGym上的准确率提升达35.32%,在SlideBench上提升达117.17%,在本文提出的BlenderBench上更实现了124.70%的显著提升。
-
- 图表
- 解决问题Vision-Language Models(VLMs)在单样本(one-shot)设置下缺乏细粒度空间定位能力,难以将图像逆向解析为可编辑、可执行的图形程序(即实现vision-as-inverse-graphics),导致其无法可靠地生成结构化、几何一致且可编辑的视觉内容(如2D文档、3D场景、4D物理交互)。
- 关键思路提出VIGA——一种无需训练、任务无关的‘代码-渲染-检验’闭环代理框架:通过符号程序合成→可微/确定性渲染→视觉-逻辑跨模态比对→基于差异的迭代修正,实现视觉与符号逻辑的主动交叉验证;核心创新在于摒弃端到端学习,转而构建一个推理驱动、记忆增强、证据持续累积的多模态认知循环。
- 其它亮点首次实现跨维度(2D→3D→4D)统一的视觉到可执行代码生成;完全免训练(training-free)、支持长程多步编辑;引入BlenderBench新基准(含复杂拓扑、材质、物理约束的Blender场景逆向编程任务);在BlenderGym、SlideBench和BlenderBench上分别提升35.32%、117.17%、124.70%准确率;代码与BlenderBench已开源;未来方向包括:扩展至神经符号编译器、耦合物理引擎进行闭环仿真优化、构建人类反馈驱动的编辑意图对齐机制。
- NeRF-based Inverse Graphics (Mildenhall et al., ECCV 2020); DreamFusion (Poole et al., NeurIPS 2022); Code as Policies (Chen et al., CoRL 2023); LVM: Language-Vision-Motor Agents (Liu et al., ICML 2024); Program-Guided Vision Models (Zhang et al., CVPR 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流