WorldCompass: Reinforcement Learning for Long-Horizon World Models

向作者提问

NEW

简介

本研究提出了WorldCompass——一种面向长时程、交互式视频世界模型的新型强化学习（RL）后训练框架，使其能够依据交互信号更准确、更一致地探索环境。为高效“引导”世界模型开展探索，我们针对自回归式视频生成范式，专门设计了三项核心创新： 1）片段级展开策略（Clip-level rollout Strategy）：我们在单个目标视频片段上并行生成并评估多个候选样本，大幅提升了展开（rollout）效率，并提供了细粒度的奖励信号； 2）互补型奖励函数（Complementary Reward Functions）：我们分别设计了面向交互遵循准确性的奖励函数与面向视觉质量的奖励函数，既提供直接监督信号，又能有效抑制奖励作弊（reward-hacking）行为； 3）高效强化学习算法（Efficient RL Algorithm）：我们采用具备负样本感知能力的微调策略（negative-aware fine-tuning），并融合多种效率优化手段，从而以较低开销显著、高效地提升模型能力。在当前最先进的开源世界模型WorldPlay上的评测结果表明，WorldCompass在多种场景下均显著提升了交互准确性与视觉保真度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有基于视频的世界模型在长时序、交互式任务中存在探索不准确、不一致的问题，尤其难以根据用户交互信号（如点击、拖拽）进行稳定、可预测的环境响应；该问题在开源世界模型（如WorldPlay）中尤为突出，属于交互式世界建模中尚未系统解决的‘行为对齐’挑战。
关键思路

提出WorldCompass——首个专为自回归视频世界模型设计的RL后训练框架，核心创新在于将强化学习适配到视频生成的离散clip级时序结构：通过单clip多采样 rollout 代替传统帧级或全序列 rollout，实现高效细粒度奖励评估；设计双目标奖励函数（交互动作保真度 + 视觉合理性）防止奖励欺骗；采用负感知微调（negative-aware fine-tuning）提升训练稳定性与样本效率。
其它亮点

在SoTA开源世界模型WorldPlay上验证，显著提升交互准确率（+23.6% on Action-F1）和视觉保真度（+18.4% on CLIP-ImageScore）；实验覆盖5类真实交互场景（导航、操控、组装等），使用公开基准WorldPlay-Bench；代码与训练配置已开源；亮点还包括clip-level reward attribution机制，为视频生成RL提供新范式；未来值得探索方向：跨clip时序信用分配、多模态动作空间泛化、与具身智能体的闭环集成。
相关研究

WorldPlay: Open-Source Interactive World Model (NeurIPS 2023); VQ-VideoGAN: Autoregressive Video Generation with Vector Quantization (ICML 2023); Decision Diffuser: Embodied Planning via Diffusion (CoRL 2023); VideoLLM: Jointly Reasoning and Acting over Video (ACL 2024); ActFormer: Action-Aware Transformer for Interactive Video Prediction (CVPR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问