【标题】The Role of Coverage in Online Reinforcement Learning

【作者团队】Tengyang Xie, Dylan J. Foster, Yu Bai, Nan Jiang, Sham M. Kakade

【发表日期】2022.10.9

【论文链接】https://arxiv.org/pdf/2210.04157.pdf

【推荐理由】覆盖条件——断言数据记录分布充分覆盖状态空间——在确定离线强化学习的样本复杂性方面发挥着重要作用。虽然这些条件乍一看似乎与在线强化学习无关,但本文通过展示建立了新的联系,即仅存在具有良好覆盖率的数据分布就可以实现样本高效的在线 RL。具体来说,文中展示了可覆盖性——即满足称为集中性的普遍覆盖条件的数据分布的存在——可以被视为底层 MDP 的结构属性,并且可以被标准算法用于样本有效探索,即使智能体不知道所述分布。本文通过证明几个较弱的覆盖概念来补充这一结果,尽管对于离线 RL 来说已经足够了,但对于在线 RL 来说是不够的。文中还表明,在线 RL 的现有复杂性度量未能最佳地捕捉可覆盖性,并提出了一种新的复杂性度量,即顺序外推系数,以提供统一的度量方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除