NEW

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Keming Wu ,

Zuhao Yang ,

Kaichen Zhang ,

Shizun Wang ,

Haowei Zhu ,

Sicong Leng ,

Zhongyu Yang ,

Qijie Wang ,

Sudong Wang ,

Ziting Wang ,

Zili Wang ,

Hui Zhang ,

Haonan Wang ,

Hang Zhou ,

Yifan Pu ,

Xingxuan Li ,

Fangneng Zhan ,

Bo Li ,

Lidong Bing ,

Yuxin Song ,

Ziwei Liu ,

Wenhu Chen ,

Jingdong Wang ,

Xinchao Wang ,

Xiaojuan Qi ,

Shijian Lu ,

Bin Wang

热度 21

2026年04月30日

简介

近期的视觉生成模型在照片级真实感、文字排版、指令遵循以及交互式编辑等方面已取得重大进展，但在空间推理、状态持久性、长时序一致性以及因果理解等方面仍面临显著挑战。我们认为，该领域亟需从单纯追求外观合成，转向更具智能性的视觉生成——即生成既逼真又符合结构规律、动态演化逻辑、领域专业知识与因果关系的视觉内容。为厘清这一范式转变的方向，我们提出一个五级分类体系：原子级生成（Atomic Generation）、条件式生成（Conditional Generation）、上下文内生成（In-Context Generation）、具身代理式生成（Agentic Generation）以及世界建模式生成（World-Modeling Generation），其演进路径是从被动渲染器逐步发展为具备交互能力、自主决策能力且具备世界认知能力的生成系统。我们系统剖析了推动该演进的关键技术动因，包括流匹配（flow matching）、统一的“理解—生成”联合建模、更优的视觉表征学习、后训练优化、奖励建模、数据筛选与精炼、合成数据蒸馏，以及采样加速技术。进一步地，我们指出：当前主流评估方法往往高估了实际进展——它们过度侧重感知质量指标，却忽视了对结构性缺陷、时序不一致性和因果错误等关键问题的检出。本路线图通过整合基准测试综述、真实场景下的压力测试（in-the-wild stress tests）以及受专家约束的典型案例研究，提供了一种以能力为中心的分析视角，旨在更准确地理解、科学地评估，并切实推动下一代智能视觉生成系统的发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前视觉生成模型虽在图像逼真度、文本对齐和交互编辑上取得进展，但严重缺乏空间推理、状态持久性、长程一致性与因果理解能力；论文旨在推动该领域从‘外观合成’转向‘智能视觉生成’——即生成既逼真又符合结构、动力学、领域知识与因果逻辑的视觉内容。这是一个尚未被系统定义和评估的新范式级问题。
关键思路

提出五级能力 taxonomy（Atomic → Conditional → In-Context → Agentic → World-Modeling Generation），将视觉生成建模为渐进式认知能力跃迁；强调‘世界建模’作为最高层级，要求模型显式表征物理状态、时序演化与因果干预效应，而非仅拟合像素分布。该框架首次将AI代理能力（agency）、世界模型（world model）与视觉生成统一到可评估的演进路径中。
其它亮点

系统批判现有评测过度依赖感知质量（如FID、CLIP-score），导致结构性/因果性失败被掩盖；提出三重评估策略：标准化基准复审 + 真实场景压力测试（in-the-wild stress tests） + 专家约束案例研究（e.g., physics-consistent scene editing）；技术驱动分析涵盖flow matching、多模态联合理解-生成架构、合成数据蒸馏等前沿方向；未提及开源代码，但明确呼吁建立‘Intelligent Visual Generation Benchmark’（IVGB）并开放评测协议。值得深入的方向包括：可微分物理引擎耦合、神经符号因果推理接口、跨时间步的隐状态记忆机制。
相关研究

‘PaLM-E: An Embodied Multimodal Language Model’ (2023); ‘Voyager: An Open-Ended Embodied Agent with Large Language Models’ (2023); ‘World Model Transformers’ (2024, DeepMind); ‘CausalVAE: Disentangling Causal Factors in Visual Representation’ (ICLR 2024); ‘PhysDreamer: Physics-Guided Video Generation’ (CVPR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问