【标题】Extreme Q-Learning: MaxEnt RL without Entropy

【发表日期】2022.9.22

【论文链接】https://openreview.net/pdf?id=SJ0Lde3tRL

【推荐理由】现代深度强化学习(RL)算法需要对最大 Q 值进行估计,这在具有无限可能行为的连续域中是很难计算的。本文引入了一个新的更新规则的在线和离线,直接模型的最大值使用极值理论(EVT)的启发经济学。通过这样做,可避免使用分布外操作来计算 Q 值,这通常是一个实质性的误差来源。本文的主要见解是引入一个目标,直接估计最大熵(MaxEnt) RL 设置下的最优软值函数(LogSumExp) ,而不需要从策略中抽样。使用 EVT,得到 极限Q-Learning框架,并因此在线和第一次离线 最大熵 Q-Learning 算法,这些算法不明确要求访问策略或其熵。最后,本文的方法获得了很好的结果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除