过扰动奖励证明有效的神经离线强化学习

【标题】Provably Efficient Neural Offline Reinforcement Learning via Perturbed Rewards

【发表日期】2022.9.22

【论文链接】https://openreview.net/pdf?id=WOquZTLCBO1

【推荐理由】本文提出了一种新的离线强化学习（RL）算法，即扰动奖励的价值迭代（VIPeR），它将随机化的价值函数思想与悲观主义原则结合起来。目前大多数离线RL算法明确地构建统计置信区，通过置信下限（LCB）获得悲观主义，这不容易扩展到使用神经网络来估计价值函数的复杂问题。相反，VIPeR通过简单地用精心设计的i.i.d高斯噪声对离线数据进行多次扰动，以学习一个估计状态动作值的集合，并贪婪地作用于该集合的最小值，从而隐含地获得悲观主义。估计的状态动作值是通过使用梯度下降法将参数模型（如神经网络）拟合到被扰动的数据集上获得的。因此，VIPeR的动作选择只需要O(1)的时间复杂度，而基于LCB的算法至少需要Ω(K2)，其中K是离线数据中轨迹的总数。本文还提出了一种新的数据分割技术，有助于消除学习约束中潜在的大对数覆盖数。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

过扰动奖励证明有效的神经离线强化学习

评论