【标题】Bellman Residual Orthogonalization for Offline Reinforcement Learning

【作者团队】Andrea Zanette, Martin J. Wainwright

【发表日期】2022.3.24

【论文链接】https://arxiv.org/pdf/2203.12786.pdf

【推荐理由】本文引入了一种新的强化学习原理,该原理通过在用户定义的测试函数空间中增强Bellman方程的有效性来近似Bellman方程。其专注于利用函数近似对自由离线RL建模的应用上,利用这一原理推导出非策略评估的置信区间,以及在规定的策略类内优化过策略。根据策略优化过程中证明了一个oracle不等式,即任意比较器策略的值和不确定性之间的权衡。测试函数空间的不同选择允许在一个共同的框架内处理不同的问题。使用该方法描述了从策略上数据转移到策略外数据时的效率损失,并建立了与过去工作中研究的集中系数的联系。通过深入研究了线性函数逼近方法的实现,并提供了多项式时间实现的理论保证,即使Bellman闭包不成立。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除