【论文标题】On Effective Scheduling of Model-based Reinforcement Learning(基于模型的强化学习的有效调度)
【作者团队】Hang LaiJian ShenJian ShenWeinan ZhangWeinan Zhang,Zhenguo Li
【论文链接】https://www.researchgate.net/publication/356282251_On_Effective_Scheduling_of_Model-based_Reinforcement_Learning
【推荐理由】基于模型的强化学习因其优越的样本效率而受到广泛关注。尽管迄今为止它取得了令人印象深刻的成功,但仍不清楚如何适当地调度重要的超参数以实现足够的性能,例如Dyna风格的基于模型的算法中用于策略优化的真实数据比率。在本文中,首先从理论上分析了真实数据在政策培训中的作用,这表明逐渐增加真实数据的比例会产生更好的绩效。受分析的启发,本文提出了一个名为AutoMBPO的框架,用于在基于模型的策略优化(MBPO)算法的训练中自动调度实际数据比率以及其他超参数,这是一个基于模型的方法的典型运行案例。在多个连续控制任务上,使用AutoMBPO调度的超参数训练的MBPO实例可以显著超过原始实例,并且AutoMBPO发现的实际数据比率调度与我们的理论分析一致。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢