【标题】Utilizing Prior Solutions for Reward Shaping and Composition in Entropy-Regularized Reinforcement Learning
【作者团队】Jacob Adamczyk, Argenis Arriojas, Stas Tiomkin, Rahul V. Kulkarni
【发表日期】2022.12.2
【论文链接】https://arxiv.org/pdf/2212.01174.pdf
【推荐理由】在强化学习 (RL) 中,利用先前解决的任务中先验知识的能力可以让智能体快速解决新问题。在某些情况下,这些新问题可以通过组合先前已解决的原始任务(任务组合)的解决方案来近似解决。另外,可以使用先验知识来调整新问题的奖励函数(奖励塑造),其方式是保持最佳策略不变但可以更快地学习。本文为熵正则化 RL 中的奖励塑造和任务组合开发了一个通用框架。为此,本文推导出了一个精确的关系,用于连接两个具有不同奖励函数和动态的熵正则化 RL 问题的最佳软值函数。本文验证了派生关系如何导致熵正则化 RL 中奖励整形的一般结果。然后,将这种方法推广到一个精确的关系,以连接熵正则化 RL 中多个任务组合的最佳价值函数。本文通过实验验证了这些理论贡献,表明奖励塑造和任务组合导致在各种设置中更快地学习。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢