【作者团队】Andrea Zanette, Martin J. Wainwright, Emma Brunskill
【论文链接】https://arxiv.org/abs/2108.08812
【推荐理由】Actor-Critic 方法广泛用于离线强化学习实践,但在理论上并没有那么好理解。本文提出了一种新的离线 actor-critic 算法,该算法自然地结合了悲观主义原则,与现有技术相比具有几个关键优势。当 Bellman 评估算子相对于参与者策略的动作价值函数关闭时,该算法可以运行;这是比低秩 MDP 模型更通用的设置。尽管增加了通用性,但该过程在计算上易于处理,因为它涉及一系列二阶程序的解决方案。本文证明了由程序返回的策略的次优差距的上限,该上限取决于任何任意的、可能依赖于数据的比较策略的数据覆盖率。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢