明日直播｜伯克利&CMU&马普所，VIGA会用Blender引擎“思考”的智能体

报告主题：VIGA: 会用Blender引擎“思考”的Agent

报告日期：02月04日（周三）10：30-11：30

报告要点：

本期报告将由北京大学殷绍峰进行分享。

视觉即逆向图形学（Vision-as-inverse-graphics），即将图像重建为可编辑的图形程序，一直是计算机视觉领域的长期目标。然而，即使是强大的视觉-语言模型（VLM）也无法一次性实现这一目标，因为它们缺乏精细的空间和物理感知能力。我们认为，弥合这一差距需要通过迭代执行生成-验证交错的多模态推理。基于此，我们提出了 VIGA（视觉即逆向图形代理），它从一个空的世界开始，通过闭环的编码-运行-渲染-比较-修改过程来重建或编辑场景。为了支持长远推理，VIGA 结合了 (i) 一个交替扮演生成器和验证器角色的，可使用外部技能库的代理，以及 (ii) 一个包含计划、代码差异和渲染历史的动态上下文记忆。 VIGA 无需辅助模块，因此不依赖于特定任务，可涵盖广泛的任务，例如 3D 重建、多步骤场景编辑、4D 物理交互和 2D 文档编辑等。实验结果表明，VIGA 在 BlenderGym (+35.32%) 和 SlideBench (+117.17%) 上的单次测试基线性能均显著提升。此外，VIGA 也无需微调，因此不依赖于特定模型，从而能够使用统一的协议来评估异构的视觉-语言模型（VLM）。为了更好地支持该协议，我们引入了 BlenderBench，这是一个具有挑战性的基准测试，它对图形引擎的交错多模态推理进行评估，VIGA 在该基准上性能提升了 124.70%。

相关论文：Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

报告嘉宾：

殷绍峰，北京大学智能科学与技术专业实验班（“智班”）大四本科生，曾前往加州大学伯克利分校（UCB）交换一学期。目前研究重点为多模态代理（Agent）系统。曾获国家奖学金，商汤奖学金，北京大学三好学生等荣誉。

电脑端观看地址

更多热门活动

内容中包含的图片若涉及版权问题，请及时与我们联系删除

明日直播｜伯克利&CMU&马普所，VIGA会用Blender引擎“思考”的智能体

评论列表

评论