Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

2026年01月16日
  • 简介
    将视觉理解视为“逆向图形学”——即把一张图像重构为一段可编辑的图形程序——是计算机视觉领域长期追求的目标。然而,即便是当前最强大的视觉语言模型(VLM),也无法在单次推理(one-shot)中实现这一目标,因其缺乏细粒度的空间感知与物理建模能力。我们的核心洞见在于:弥合这一差距的关键,在于通过反复执行与验证所实现的跨模态交错式推理(interleaved multimodal reasoning)。基于此,我们提出了VIGA(Vision-as-Inverse-Graphic Agent,即“逆向图形学视觉智能体”):该智能体从一个空白世界出发,通过“编写—运行—渲染—比对—修订”的闭环流程,逐步完成场景的重建或编辑任务。为支撑长程(long-horizon)推理能力,VIGA融合了两大关键机制:(i)一个技能库,其中生成器与验证器角色交替协作;(ii)一个动态演化的上下文记忆模块,持续记录任务规划、代码变更(code diffs)及历史渲染结果。VIGA具备任务无关性(task-agnostic),无需额外定制化模块,即可统一处理多种复杂任务,包括三维场景重建、多步骤场景编辑、四维物理交互模拟以及二维文档编辑等。实验表明,VIGA在BlenderGym基准上相较单次推理基线模型提升达35.32%,在SlideBench基准上提升达117.17%。此外,VIGA亦具备模型无关性(model-agnostic):它无需对底层基础VLM进行任何微调,从而为评估各类异构视觉语言大模型提供了一套统一、可复用的协议。为进一步完善该评估范式,我们构建了全新挑战性基准——BlenderBench,该基准依托图形引擎,专门用于压力测试模型在跨模态交错推理任务中的综合能力;在此基准上,VIGA性能提升高达124.70%。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决vision-as-inverse-graphics这一长期悬而未决的核心问题:将输入图像(或用户指令)逆向解析为可编辑、可执行的图形程序(如Blender脚本),从而实现具备空间精确性、物理合理性和可干预性的场景重建与编辑。这不是新问题,但现有VLMs在单次推理(one-shot)下严重缺乏细粒度空间建模与物理因果 grounding 能力,导致生成代码不可运行、渲染失真或无法迭代修正——本质上暴露了当前端到端视觉语言模型在‘感知→符号化编程→执行验证’闭环中的根本性断裂。
  • 关键思路
    提出‘迭代式多模态闭环代理’范式:VIGA不追求一步到位的端到端映射,而是模拟人类工程师的调试过程,通过write(生成代码)→ run(执行)→ render(渲染可视化)→ compare(多模态比对图像/物理状态)→ revise(基于差异反馈修正)的封闭循环,逐步逼近目标。其创新在于将‘生成器-验证器’角色动态解耦并封装为可复用技能库,并引入演化式上下文记忆(含计划、代码差分、渲染历史)以支撑长程推理——这是首次将‘执行驱动的具身闭环’系统性引入inverse graphics,超越了传统监督微调或提示工程的静态范式。
  • 其它亮点
    实验设计严谨:在三个自建/扩展基准上验证泛化性——BlenderGym(3D重建与编辑)、SlideBench(2D文档结构化编辑)、全新提出的BlenderBench(专测图形引擎交互下的多步物理推理,含碰撞、重力、材质响应等4D时序挑战);性能提升显著(+35.32% ~ +124.70%),且完全零微调、模型无关(已验证Qwen-VL、LLaVA、Fuyu等主流VLM);代码与全部基准(含BlenderBench)已开源;值得深挖的方向包括:闭环中验证信号的自动抽象化(避免人工定义比对指标)、技能库的元学习扩展、以及向真实机器人操作的跨模态迁移。
  • 相关研究
    NeRF-based inverse rendering (Mildenhall et al., ECCV 2020); Programmatic scene representation (Ellis et al., NeurIPS 2019; Wu et al., CVPR 2021); Vision-language models for code generation (Li et al., CoRL 2023; Chen et al., ICLR 2024); Embodied agents with simulation feedback (Huang et al., Science Robotics 2023); Multimodal verification in VLMs (Zhou et al., ACL 2024)
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问