Offline Reinforcement Learning with On-Policy Q-Function Regularization

L Shi, R Dadashi, Y Chi, P S Castro, M Geist
[CMU & Google]

基于On-Policy Q函数正则化的离线强化学习

  • 动机:解决离线强化学习(Offline RL)中的核心挑战,即处理由历史数据集和期望策略之间的分布漂移引起的(潜在灾难性的)外推错误。
  • 方法:所使用的方法是将学习策略向行为策略的Q函数进行正则化,而不是直接向行为策略本身进行正则化。这样做的前提是Q函数可以更可靠和容易地通过SARSA-style估计,并且更直接地处理外推错误。
  • 优势:提出了使用行为策略的Q函数进行正则化的方法,相比于之前的方法,这种正则化更直接和高效,并且在D4RL基准测试上表现出了强大的性能。

提出了一种新的离线强化学习方法,通过正则化学习策略向行为策略的Q函数,有效解决了分布漂移引起的外推错误。

https://arxiv.org/abs/2307.13824 
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除