【标题】Instance-Dependent Confidence and Early Stopping for Reinforcement Learning
(依赖实例的保证和早期停止的强化学习)
【作者团队】 Koulik Khamaru, Eric Xia, Martin J. Wainwright, Michael I. Jordan
【发表日期】 20 January, 2022
【论文链接】https://arxiv.org/pdf/2201.08536.pdf
【推荐理由】各种强化学习(RL)算法的收敛速度随着问题结构的变化而显著变化。这种依赖于问题的行为并不是最坏情况分析所能捕捉到的,因此,在获得依赖于实例的保证和推导RL问题的实例优化算法方面,激发了越来越多的努力。然而,这项研究主要是在理论范围内进行的,为解释观察到的性能差异提供了保证。下一步自然是将这些理论保证转化为在实践中有用的指导方针。在给出实例优化算法的情况下,我们解决了策略评估问题和MDP的最优值估计问题中获得与实例相关的置信域的问题。因此,我们提出了一个与数据相关的停止规则,用于实例优化算法。建议的停止规则适用于问题的实例特定难度,并允许提前终止结构良好的问题。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢