【标题】Criticality-Based Varying Step-Number Algorithm for Reinforcement Learning

【作者团队】Yitzhak Spielberg, Amos Azaria

【发表日期】2022.1.13

【论文链接】https://arxiv.org/pdf/2201.05034.pdf

【推荐理由】在强化学习的背景下,本文引入了状态临界性的概念,其表明在该特定状态下的动作选择对预期奖励的影响程度。即动作选择更有可能影响最终结果的状态被认为比它不太可能影响最终结果的状态更关键。本文提出了一种基于临界性的变步长算法 (CVS)——一种灵活的步长算法,它利用人类提供的关键性函数,或直接从环境中学习。通过在三个不同的领域进行测试,包括 Atari Pong 环境、Road-Tree 环境和 Shooter 环境。研究结果表明 CVS 能够超越流行的学习算法,如深度Q学习和蒙特卡罗(Monte Carlo)。