【标题】COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation
【作者团队】Jongmin Lee, Cosmin Paduraru, Daniel J. Mankowitz, Nicolas Heess, Doina Precup, Kee-Eung Kim, Arthur Guez
【发表日期】2022.4.19
【论文链接】https://arxiv.org/pdf/2204.08957.pdf
【推荐理由】本文考虑离线约束强化学习(RL)问题,其中智能体的目的是计算一个最大化预期收益的策略,同时满足给定的成本约束,只从预先收集的数据集学习。这种问题设置在许多现实场景中都很有吸引力,在这些场景中,与环境的直接交互代价高昂或存在风险,并且由此产生的策略应符合安全约束。然而,由于非策略评估本身具有估计误差,因此计算保证满足离线RL设置中的成本约束的策略具有挑战性。本文提出了一种离线约束的RL算法,该算法在平稳分布空间中优化策略。该算法COptiDICE在约束成本上界的同时,直接估计最优策略相对于收益的平稳分布修正,目的是产生一个成本保守的策略,以满足实际约束。实验结果表明,COptiDICE在约束满足和收益最大化方面获得了更好的策略,优于基线算法。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢