【标题】SoftTreeMax: Policy Gradient with Tree Search

【作者团队】Gal Dalal, Assaf Hallak, Shie Mannor, Gal Chechik

【发表日期】2022.9.28

【论文链接】https://arxiv.org/pdf/2209.13966.pdf

【推荐理由】NVIDIA再出新作,首次将树状搜索整合到策略梯度的方法中。策略梯度方法被广泛用于学习控制策略。它们可以很容易地分布式执行,并在许多领域达到最先进的结果。然而,由于它们累加在整个轨迹上的梯度,它们表现出较大的估计方差,并且存在高样本复杂性。在另一个极端,规划方法,如树形搜索,使用考虑未来展望的单步过渡来优化策略。这些方法主要被考虑用于基于价值的算法。基于规划的算法需要一个前向模型,每一步的计算量都很大,但采样效率更高。本文研究者引入了SoftTreeMax,传统上,梯度是针对单一的状态-动作对进行计算的。相反,此方法基于树的策略结构在每个环境步骤中利用了叶节点的所有梯度。这使算法能够将梯度的方差减少三个数量级,并且与标准策略梯度相比,拥有更好的样本复杂性。在Atari上,SoftTreeMax与分布式PPO相比,在更快的运行时间内展示了高达5倍的性能 ,性能提高了5倍。