A Bayesian Approach to Online Planning

Nir Greshler ,
David Ben Eli ,
Carmel Rabinovitz ,
Gabi Guetta ,
Liran Gispan ,
Guy Zohar ,
Aviv Tamar
2024年06月04日
  • 简介
    蒙特卡罗树搜索和神经网络的组合已经彻底改变了在线规划的方式。由于神经网络的逼近通常是不完美的,因此我们想知道网络输出的不确定性估计是否可以用于改善规划。我们开发了一种贝叶斯规划方法,以经典的元推理文献中的思想为灵感,便于进行这种不确定性量化。我们提出了一种基于汤普森抽样的算法来搜索可能行动的树,我们证明了第一个(据我们所知)有限时间的贝叶斯遗憾界,并提出了一个有效的实现方法,适用于一类后验分布的限制性家族。此外,我们提出了一种应用于树的Bayes-UCB方法的变体。在实证方面,我们展示了在ProcGen Maze和Leaper环境中,当不确定性估计准确但神经网络输出不准确时,我们的贝叶斯方法可以更有效地搜索树。此外,我们调查了流行的不确定性估计方法是否足够准确,以产生显着的规划收益。我们的代码可在以下网址找到:https://github.com/nirgreshler/bayesian-online-planning。
  • 图表
  • 解决问题
    论文旨在探讨蒙特卡罗树搜索和神经网络相结合的在线规划方法中,如何利用神经网络输出的不确定性估计来改善规划效果。
  • 关键思路
    提出一种基于贝叶斯规划的方法,通过经典元推理方法,将神经网络输出的不确定性估计与搜索树相结合,提高规划效率。
  • 其它亮点
    论文提出了一种基于汤普森采样的搜索算法,并证明了该算法的贝叶斯遗憾上界。同时,论文还提出了一种基于贝叶斯-UCB方法的树形搜索算法。实验结果表明,在神经网络输出不准确但不确定性估计准确的情况下,该方法能够更有效地搜索树。论文代码已开源。
  • 相关研究
    最近的相关研究包括使用强化学习方法进行规划的研究,以及利用神经网络输出的不确定性估计来提高强化学习效果的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论