代尔夫特理工大学:Wendelin Böhmer | 具有不确定性的规划：基于模型的强化学习的深入探索

【标题】Planning with Uncertainty: Deep Exploration in Model-Based Reinforcement Learning

【作者团队】Yaniv Oren, Matthijs T. J. Spaan, Wendelin Böhmer

【发表日期】2022.10.21

【论文链接】https://arxiv.org/pdf/2210.13455.pdf

【推荐理由】基于深度模型的强化学习（RL）在许多具有挑战性的领域表现出了超强的人类性能。然而，低采样效率和有限的勘探仍然是该领域的主要障碍。本文通过将认知不确定性纳入规划树，绕过通过价值学习传播不确定性的标准方法，展示了对基于模型的RL的深入探索。通过使用最先进的基于模型的RL算法MuZero来评估该方法，并扩展其训练过程，以从明确探索的轨迹中稳定学习。实验表明具有不确定性的规划能够证明使用标准不确定性估计机制进行有效的深度勘探，并因此显著提高了样本效率。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

代尔夫特理工大学:Wendelin Böhmer | 具有不确定性的规划：基于模型的强化学习的深入探索

评论