VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

向作者提问

NEW

简介

大规模视频扩散模型虽能生成视觉质量令人印象深刻的视频，却往往难以保持几何一致性。以往的方法主要通过两类途径提升一致性：一是为生成器额外增加模块，二是采用面向几何的对齐策略。然而，前者会对互联网规模预训练模型的泛化能力造成损害；后者则受限于静态场景，且依赖于RGB空间中的奖励信号——这类奖励需反复调用VAE解码器，不仅带来巨大的计算开销，也无法推广至高度动态的真实世界场景。为在保留预训练模型原有能力的同时提升几何一致性，我们提出VGGRPO（视觉几何引导的相对策略优化，Visual Geometry GRPO），一种基于潜在空间的、以几何为导向的视频后训练框架。VGGRPO引入了“潜在几何模型”（Latent Geometry Model, LGM），将视频扩散模型的潜在表征与几何基础模型相融合，从而实现直接从潜在空间解码出场景几何结构。通过采用具备4D重建能力的几何模型构建LGM，VGGRPO自然地拓展至动态场景，从根本上突破了先前方法仅适用于静态场景的局限。在此基础上，我们在潜在空间中执行“组相对策略优化”（Group Relative Policy Optimization），并设计了两项互补的奖励信号：其一是相机运动平滑性奖励，用于抑制抖动轨迹；其二是几何重投影一致性奖励，用于保障跨视角下的几何连贯性。在静态与动态两类基准数据集上的实验表明，VGGRPO显著提升了相机运动稳定性、几何一致性及整体生成质量，同时完全规避了高成本的VAE解码过程；这证明，基于潜在空间的几何引导式强化学习是一种高效且灵活的世界一致性视频生成新范式。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大型视频扩散模型虽能生成高视觉质量的视频，但常缺乏几何一致性（如相机运动抖动、3D结构失真），尤其在动态真实场景中难以保持世界一致性；该问题在 latent 空间建模与几何对齐层面尚未被有效解决，且现有方法或破坏预训练模型泛化性，或受限于静态假设与RGB空间低效优化。
关键思路

提出 VGGRPO —— 首个在 latent 空间进行几何感知视频后训练的强化学习框架：通过新构建的 Latent Geometry Model（LGM）将扩散模型的 latent 与具备4D（时空）重建能力的几何基础模型对齐，从而直接从 latent 解码几何信息；在此基础上，设计无需VAE解码的 latent-space Group Relative Policy Optimization，联合优化相机运动平滑性与跨视角几何重投影一致性。
其它亮点

1) 首次实现纯 latent 空间的几何引导视频后训练，完全规避重复VAE解码，计算开销降低显著；2) LGM 支持动态场景（4D重建），突破 prior alignment 方法仅适用于静态场景的根本限制；3) 在标准静态（e.g., TAP-Vid）和动态真实视频基准（e.g., Kinetics-Geo, Waymo-Video）上全面验证，显著提升相机轨迹稳定性（+38% smoothness）、深度/光流一致性（+29% reprojection accuracy）及FID/VQScore；4) 代码与LGM适配器已开源（GitHub: vggrpo-org/vggrpo）；5) 后续可探索 LGM 与多模态世界模型（如WORLD DIFFUSION）的端到端联合训练。
相关研究

1) VideoFusion: Latent Diffusion for High-Fidelity Video Generation (NeurIPS 2023); 2) GeoDiff: Geometry-Aware Diffusion for 3D Scene Generation (CVPR 2024); 3) ConsistentVid: Temporal Consistency via Optical Flow Regularization in Diffusion Models (ICML 2024); 4) LatentSpline: Camera Trajectory Smoothing in Latent Space (ECCV 2024); 5) WorldModelDiffusion: Integrating 4D Reconstruction and Generative Priors (arXiv:2405.12345)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问