离线强化学习(Offline RL)旨在仅利用固定的离线数据集学习最优策略,而无需与环境进行任何额外交互。这类方法通常在训练阶段学习一个离线策略(或价值函数),并在推理阶段直接部署该策略,不再对其进行进一步调整。我们提出了一种受模型预测控制(MPC)启发的推理时自适应框架,该框架结合了一个预训练策略以及一个学习得到的状态转移与奖励的世界模型。尽管现有世界模型方法和扩散规划(diffusion-planning)方法已在训练过程中利用所学动力学模型生成“想象”轨迹,或在推理阶段利用其采样候选规划方案,但它们均未利用推理时的实际观测信息对策略参数进行实时优化。与此不同,我们的设计是一种“可微分世界模型”(Differentiable World Model, DWM)流水线,它支持通过“想象” rollout 进行端到端梯度反传,从而在推理阶段基于 MPC 原理对策略参数实施在线优化。我们在 D4RL 连续控制基准任务(包括 MuJoCo 仿生运动任务与 AntMaze 迷宫导航任务)上对所提算法进行了评估。结果表明,利用推理时信息实时优化策略参数,能够持续、稳定地超越多种强基线离线强化学习方法。