【标题】Redeeming Intrinsic Rewards via Constrained Optimization
【作者团队】Eric Chen, Zhang-Wei Hong, Joni Pajarinen, Pulkit Agrawal
【发表日期】2022.11.14
【论文链接】https://arxiv.org/pdf/2211.07627.pdf
【推荐理由】最先进的强化学习 (RL) 算法通常使用随机抽样进行探索,但这种方法在像蒙特祖玛的复仇这样的艰巨探索任务中失败了。为了应对探索的挑战,先前的工作通过探索奖励来激励智能体访问新状态。与仅使用任务奖励训练的智能体相比,此类方法可以在艰苦的探索任务上产生出色的结果,但可能会受到内在奖励偏差的影响并且表现不佳。当智能体寻求内在奖励并执行不必要的探索时,即使有足够的任务奖励可用,这种性能下降也会发生。这种跨任务性能的不一致阻碍了 RL 算法广泛使用内在奖励。麻省理工学院研究团队提出了一种有原则的约束策略优化程序,可以自动调整内在奖励的重要性:它在不需要探索时抑制内在奖励,并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。
评论
沙发等你来抢