- 简介在许多实际场景中,智能体必须从某个先前的行为策略收集的离线数据集中进行学习。这种情况自然会导致行为策略和正在训练的目标策略之间的分布转移,需要策略保守性来避免不稳定性和高估偏差。自回归世界模型提供了另一种解决方案,即生成合成的、在线策略经验。然而,在实践中,模型回放必须严格截断以避免复合误差。作为替代方法,我们提出了策略引导扩散。我们的方法使用扩散模型在行为分布下生成整个轨迹,应用目标策略的指导,将合成经验进一步移动到在线策略。我们展示了策略引导扩散模型是目标分布的一种规范化形式,平衡了目标策略和行为策略下的动作可能性,产生了具有高目标策略概率的合理轨迹,同时保留了比离线世界模型基线更低的动力学误差。使用策略引导扩散的合成经验作为真实数据的替代品,我们在一系列标准离线强化学习算法和环境中展示了显著的性能提升。我们的方法提供了一种有效的替代自回归离线世界模型的方法,为可控制的合成训练数据的生成打开了大门。
- 图表
- 解决问题解决问题:论文试图提出一种新的方法来解决离线数据集训练中的分布偏移问题,同时避免不稳定性和高估偏差。
- 关键思路关键思路:论文提出了一种基于扩散模型的策略引导方法,在生成合成数据时使用目标策略的指导来移动合成经验,从而生成更符合目标策略的合成数据。
- 其它亮点其他亮点:论文使用合成数据作为真实数据的替代品,证明了这种方法在离线强化学习任务中的有效性。实验结果表明,与基于自回归的离线世界模型相比,该方法具有更低的动态误差和更高的目标策略概率。
- 相关研究:最近在这个领域中,一些相关研究包括:《Deep Reinforcement Learning with Double Q-learning》、《Off-Policy Deep Reinforcement Learning without Exploration》、《Actor-Critic Policy Optimization in Partially Observable Multiagent Environments》等。
沙发等你来抢
去评论
评论
沙发等你来抢