【标题】CEM-GD: Cross-Entropy Method with Gradient Descent Planner for Model-Based Reinforcement Learning(CEM-GD:基于模型强化学习的梯度下降规划交叉熵方法)
【作者团队】Kevin Huang, Sahin Lale, Ugo Rosolia, Yuanyuan Shi, Anima Anandkumar。California Institute of Technology.
【发表日期】14 December, 2021
【论文链接】https://arxiv.org/pdf/2112.07746.pdf
【推荐理由】当前最先进的基于模型的强化学习算法使用轨迹采样方法,如交叉熵法(CEM),在连续控制设置中进行规划。这些零阶优化器需要对大量的轨迹卷展进行采样,以选择最佳动作,对于较大的预测范围或高维动作空间,该动作的伸缩性较差。一阶方法使用与动作相关的奖励梯度作为更新,可以缓解此问题,但由于非凸优化环境,会出现局部最优。为了克服这些问题并实现两个方面的最佳效果,本文提出了一种新的规划器,即梯度下降交叉熵法(CEM-GD),它将一阶方法与CEM相结合。在执行开始时,CEM-GD使用CEM对大量的轨迹展开进行采样,以探索优化环境并避免出现局部极小值。然后,它使用顶部轨迹作为梯度下降的初始化,并对每个轨迹应用梯度更新,以找到最佳动作序列。然而,在随后的每个时间步,CEM-GD在应用梯度更新之前从CEM中采样的轨迹要少得多。实验表明,随着规划问题维数的增加,CEM-GD通过使用梯度信息在恒定的小样本数下保持理想的性能,同时使用初始良好采样轨迹避免局部最优。此外,CEM-GD在MuJoCo的各种连续控制基准上实现了比CEM更好的性能,每个时间步的采样数减少了100倍,从而减少了约25%的计算时间和10%的内存使用。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢