【标题】Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization

【作者团队】Igor Kuznetsov

【发表日期】2022.6.25

【论文链接】https://arxiv.org/pdf/2206.12674.pdf

【推荐理由】这类深度确定性异策略算法有效地应用于解决具有挑战性的连续控制问题。然而,当前的方法使用随机噪声作为一种常见的探索方法,该方法具有几个弱点,例如需要对给定任务进行手动调整以及在训练过程中缺乏探索性校准。本文通过提出一种新颖的引导探索方法来应对这些挑战,该方法使用差分方向控制器来结合可扩展的探索动作校正。提供探索性方向的一组蒙特卡洛批评家被呈现为控制器。所提出的方法通过动态改变探索来改进传统的探索方案。然后,本文提出了一种新算法,该算法利用所提出的方向控制器来进行策略和批评者修改。