【标题】Action Candidate Driven Clipped Double Q-learning for Discrete and Continuous Action Tasks
【作者团队】Haobo Jiang, Jin Xie, Jian Yang
【发表日期】2022.3.22
【论文链接】https://arxiv.org/pdf/2203.11526.pdf
【推荐理由】限幅双 Q 学习作为双 Q 学习的一种有效变体,采用限幅双估计器来逼近最大预期动作值。由于限幅双估计器的低估偏差,限幅双 Q 学习的性能在某些随机环境中可能会下降。为了减少低估偏差,本文提出了一种基于动作候选的裁剪双估计器。具体来说,首先从一组估计器中选择一组具有高动作值的精英动作候选者。然后,在这些候选者中,从另一组估计器中选择价值最高的动作。最后,使用第二组估计器中的最大值来裁剪第一组估计器中所选动作的动作值,并且裁剪值用于逼近最大预期动作值。从理论上讲,裁剪的双 Q 学习中的低估偏差随着候选动作数量的减少而单调衰减。此外,候选行动的数量控制着高估和低估偏差之间的权衡。本文还通过逼近精英连续动作候选者,将裁剪的双 Q 学习扩展到连续动作任务。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢