【论文标题】Sample Efficient Deep Reinforcement Learning via Local Planning
【作者团队】Dong Yin, Sridhar Thiagarajan, Nevena Lazic, Nived Rajaraman, Botao Hao, Csaba Szepesvari
【发表日期】2023.1.29
【论文链接】https://arxiv.org/pdf/2301.12579.pdf
【推荐理由】这项工作的重点是使用模拟器进行样本高效的深度强化学习 (RL)。模拟器的一个有用特性是通常很容易将环境重置为先前观察到的状态本研究团队提出了一个算法框架,称为不确定性优先局部规划 (UFLP),它利用了这个属性。具体来说,在每次数据收集迭代中,元算法都有一定的概率将环境重置为具有高度不确定性的观察状态,而不是根据初始状态分布进行采样。然后智能体-环境交互像标准在线 RL 设置一样进行。研究证明了这个简单的过程可以显著提高几个基线 RL 算法在困难探索任务上的样本成本。值得注意的是,通过此框架,可以在臭名昭著的 Atari 游戏 Montezuma's Revenge 上使用简单的(分布式)双 DQN 实现超人的性能。此工作可以被视为具有理论保证的现有算法的有效近似实现,它提供了对积极实证结果的解释。
评论
沙发等你来抢