麻省理工实现自动调整内在奖励的强化学习

【标题】Redeeming Intrinsic Rewards via Constrained Optimization

【作者团队】Eric Chen, Zhang-Wei Hong, Joni Pajarinen, Pulkit Agrawal

【发表日期】2022.11.14

【论文链接】https://arxiv.org/pdf/2211.07627.pdf

【推荐理由】最先进的强化学习 (RL) 算法通常使用随机抽样进行探索，但这种方法在像蒙特祖玛的复仇这样的艰巨探索任务中失败了。为了应对探索的挑战，先前的工作通过探索奖励来激励智能体访问新状态。与仅使用任务奖励训练的智能体相比，此类方法可以在艰苦的探索任务上产生出色的结果，但可能会受到内在奖励偏差的影响并且表现不佳。当智能体寻求内在奖励并执行不必要的探索时，即使有足够的任务奖励可用，这种性能下降也会发生。这种跨任务性能的不一致阻碍了 RL 算法广泛使用内在奖励。麻省理工学院研究团队提出了一种有原则的约束策略优化程序，可以自动调整内在奖励的重要性：它在不需要探索时抑制内在奖励，并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

麻省理工实现自动调整内在奖励的强化学习

评论