【标题】Metric Residual Networks for Sample Efficient Goal-conditioned Reinforcement Learning
【作者团队】Bo Liu, Yihao Feng, Qiang Liu, Peter Stone
【发表日期】2022.8.17
【论文链接】https://arxiv.org/pdf/2208.08133.pdf
【推荐理由】目标条件强化学习 (GCRL) 具有广泛的潜在现实应用,包括机器人的操作和导航问题。特别是在此类机器人任务中,样本效率对 GCRL 至关重要,因为默认情况下,智能体仅在达到目标时才会获得奖励。虽然已经提出了几种方法来提高 GCRL 的样本效率,但一种相对较少研究的方法是设计神经架构以支持样本效率。本文为 GCRL 引入了新的神经架构,它比常用的单片网络架构实现了显着更好的样本效率。其关键见解是最优动作价值函数 Q^*(s, a, g) 必须满足特定意义上的三角不等式。还引入了度量残差网络 (MRN),该网络有意将动作值函数Q(s,a,g)分解为度量加上残差非对称分量的求和。MRN 可证明近似于任何最优动作值函数 Q^*(s,a,g),因此使其成为适合 GCRL 的神经架构。在 GCRL 的 12 个标准基准环境中进行了全面实验。实证结果表明,MRN 在样本效率方面均优于其他最先进的 GCRL 神经架构。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢