Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

向作者提问

NEW

简介

将视觉理解视为“逆向图形学”——即把一张图像重构为一段可编辑的图形程序——是计算机视觉领域长期追求的目标。然而，即便是当前最强大的视觉语言模型（VLM），也无法在单次推理（one-shot）中实现这一目标，因其缺乏细粒度的空间感知与物理建模能力。我们的核心洞见在于：弥合这一差距的关键，在于通过反复执行与验证所实现的跨模态交错式推理（interleaved multimodal reasoning）。基于此，我们提出了VIGA（Vision-as-Inverse-Graphic Agent，即“逆向图形学视觉智能体”）：该智能体从一个空白世界出发，通过“编写—运行—渲染—比对—修订”的闭环流程，逐步完成场景的重建或编辑任务。为支撑长程（long-horizon）推理能力，VIGA融合了两大关键机制：（i）一个技能库，其中生成器与验证器角色交替协作；（ii）一个动态演化的上下文记忆模块，持续记录任务规划、代码变更（code diffs）及历史渲染结果。VIGA具备任务无关性（task-agnostic），无需额外定制化模块，即可统一处理多种复杂任务，包括三维场景重建、多步骤场景编辑、四维物理交互模拟以及二维文档编辑等。实验表明，VIGA在BlenderGym基准上相较单次推理基线模型提升达35.32%，在SlideBench基准上提升达117.17%。此外，VIGA亦具备模型无关性（model-agnostic）：它无需对底层基础VLM进行任何微调，从而为评估各类异构视觉语言大模型提供了一套统一、可复用的协议。为进一步完善该评估范式，我们构建了全新挑战性基准——BlenderBench，该基准依托图形引擎，专门用于压力测试模型在跨模态交错推理任务中的综合能力；在此基准上，VIGA性能提升高达124.70%。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文试图解决vision-as-inverse-graphics这一长期悬而未决的核心问题：将输入图像（或用户指令）逆向解析为可编辑、可执行的图形程序（如Blender脚本），从而实现具备空间精确性、物理合理性和可干预性的场景重建与编辑。这不是新问题，但现有VLMs在单次推理（one-shot）下严重缺乏细粒度空间建模与物理因果 grounding 能力，导致生成代码不可运行、渲染失真或无法迭代修正——本质上暴露了当前端到端视觉语言模型在‘感知→符号化编程→执行验证’闭环中的根本性断裂。
关键思路

提出‘迭代式多模态闭环代理’范式：VIGA不追求一步到位的端到端映射，而是模拟人类工程师的调试过程，通过write（生成代码）→ run（执行）→ render（渲染可视化）→ compare（多模态比对图像/物理状态）→ revise（基于差异反馈修正）的封闭循环，逐步逼近目标。其创新在于将‘生成器-验证器’角色动态解耦并封装为可复用技能库，并引入演化式上下文记忆（含计划、代码差分、渲染历史）以支撑长程推理——这是首次将‘执行驱动的具身闭环’系统性引入inverse graphics，超越了传统监督微调或提示工程的静态范式。
其它亮点

实验设计严谨：在三个自建/扩展基准上验证泛化性——BlenderGym（3D重建与编辑）、SlideBench（2D文档结构化编辑）、全新提出的BlenderBench（专测图形引擎交互下的多步物理推理，含碰撞、重力、材质响应等4D时序挑战）；性能提升显著（+35.32% ~ +124.70%），且完全零微调、模型无关（已验证Qwen-VL、LLaVA、Fuyu等主流VLM）；代码与全部基准（含BlenderBench）已开源；值得深挖的方向包括：闭环中验证信号的自动抽象化（避免人工定义比对指标）、技能库的元学习扩展、以及向真实机器人操作的跨模态迁移。
相关研究

NeRF-based inverse rendering (Mildenhall et al., ECCV 2020); Programmatic scene representation (Ellis et al., NeurIPS 2019; Wu et al., CVPR 2021); Vision-language models for code generation (Li et al., CoRL 2023; Chen et al., ICLR 2024); Embodied agents with simulation feedback (Huang et al., Science Robotics 2023); Multimodal verification in VLMs (Zhou et al., ACL 2024)

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问