【标题】Provably Efficient Neural Offline Reinforcement Learning via Perturbed Rewards

【发表日期】2022.9.22

【论文链接】https://openreview.net/pdf?id=WOquZTLCBO1

【推荐理由】本文提出了一种新的离线强化学习(RL)算法,即扰动奖励的价值迭代(VIPeR),它将随机化的价值函数思想与悲观主义原则结合起来。目前大多数离线RL算法明确地构建统计置信区,通过置信下限(LCB)获得悲观主义,这不容易扩展到使用神经网络来估计价值函数的复杂问题。相反,VIPeR通过简单地用精心设计的i.i.d高斯噪声对离线数据进行多次扰动,以学习一个估计状态动作值的集合,并贪婪地作用于该集合的最小值,从而隐含地获得悲观主义。估计的状态动作值是通过使用梯度下降法将参数模型(如神经网络)拟合到被扰动的数据集上获得的。因此,VIPeR的动作选择只需要O(1)的时间复杂度,而基于LCB的算法至少需要Ω(K2),其中K是离线数据中轨迹的总数。本文还提出了一种新的数据分割技术,有助于消除学习约束中潜在的大对数覆盖数。