Model Predictive Control with Differentiable World Models for Offline Reinforcement Learning

向作者提问

NEW

简介

离线强化学习（Offline RL）旨在仅利用固定的离线数据集学习最优策略，而无需与环境进行任何额外交互。这类方法通常在训练阶段学习一个离线策略（或价值函数），并在推理阶段直接部署该策略，不再对其进行进一步调整。我们提出了一种受模型预测控制（MPC）启发的推理时自适应框架，该框架结合了一个预训练策略以及一个学习得到的状态转移与奖励的世界模型。尽管现有世界模型方法和扩散规划（diffusion-planning）方法已在训练过程中利用所学动力学模型生成“想象”轨迹，或在推理阶段利用其采样候选规划方案，但它们均未利用推理时的实际观测信息对策略参数进行实时优化。与此不同，我们的设计是一种“可微分世界模型”（Differentiable World Model, DWM）流水线，它支持通过“想象” rollout 进行端到端梯度反传，从而在推理阶段基于 MPC 原理对策略参数实施在线优化。我们在 D4RL 连续控制基准任务（包括 MuJoCo 仿生运动任务与 AntMaze 迷宫导航任务）上对所提算法进行了评估。结果表明，利用推理时信息实时优化策略参数，能够持续、稳定地超越多种强基线离线强化学习方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

offline reinforcement learning中策略在部署时无法利用实时观测信息进行调整，导致泛化性和鲁棒性受限；本文旨在解决如何在不与环境交互的前提下，于推理阶段动态优化预训练策略以提升实际性能——这是一个新兴且重要的方向，区别于传统离线RL的‘训练-冻结-部署’范式。
关键思路

提出Differentiable World Model（DWM）框架：将预训练策略、可微分世界模型（建模状态转移与奖励）与MPC式推理时梯度优化结合，实现端到端通过想象轨迹反向传播梯度来在线更新策略参数；核心新意在于首次将策略参数纳入推理时可微优化回路，而非仅优化动作序列（如典型扩散规划或MPC）。
其它亮点

在D4RL标准基准（MuJoCo locomotion和AntMaze）上系统验证，显著超越CQL、BCQ、TD3+BC等强基线；所有实验基于公开数据集，论文明确提及代码开源；亮点还包括对世界模型误差传播的鲁棒性设计、低开销的单步梯度更新机制；值得深入的方向包括：DWM在视觉输入/稀疏奖励/多任务场景的扩展，以及与语言模型协同的推理时适应框架。
相关研究

World Models (Ha & Schmidhuber, 2018); DreamerV2 (Hafner et al., 2021); Decision Transformer (Chen et al., 2021); TD-MPC (Hansen et al., 2024); Diffuser (Janner et al., 2022); MOPO (Yu et al., 2020); COMBO (Yu et al., 2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问