【标题】The Efficacy of Pessimism in Asynchronous Q-Learning

【作者团队】Yuling Yan, Gen Li, Yuxin Chen, Jianqing Fan

【发表日期】2022.3.14

【论文链接】https://arxiv.org/pdf/2203.07368

【推荐理由】本文研究异步形式的Q-学习,它将随机逼近方案应用于马尔可夫数据样本。基于离线强化学习的最新进展,本文将悲观主义原理融入异步Q-学习,该框架基于合适的置信下限(LCB)惩罚不常访问的状态-动作对。本文的方法允许某些重要场景中的观测数据只覆盖部分状态-动作空间,这与之前的理论形成鲜明对比,之前的理论要求统一覆盖所有状态-动作对。在目标精度足够小的情况下,结合方差缩减的思想,采用LCB惩罚的异步Q学习可以获得接近最优的样本复杂度。相比之下,即使允许进行i.i.d.采样,就有效视界的依赖性而言,之前的工作也不是最理想的。本文的研究结果为在存在马尔可夫非i.i.d.数据的情况下使用悲观主义原则提供了第一个理论支持。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除