- 简介本文中,我们考虑了一个由各种动态的马尔可夫决策过程模拟的任务有限集合。我们假设经历了漫长的训练阶段,从中完美地恢复了任务集合,并专注于对未知测试任务的最优策略进行遗憾最小化。在一个分离条件下,该条件表明存在一个状态-动作对,揭示了一个任务与另一个任务的区别。陈等人(2022)展示了可以实现$O(M^2 \log(H))$的遗憾,其中$M$和$H$分别为集合中任务和测试集数。在我们的第一篇贡献中,我们通过开发一个新的下界,证明了在分离条件下,后一种速率几乎是最优的,并展示了一个与$M$线性相关的不可避免的测试时间遗憾最小化。然后,我们提出了一系列更强的但合理的假设,超越了分离条件,我们称之为强可识别性,使算法能够同时实现快速的$\log(H)$速率和$M$的次线性依赖。我们的论文提供了对测试时间遗憾最小化的统计障碍以及何时可以实现快速速率的新的理解。
- 图表
- 解决问题论文旨在解决元强化学习中的测试时间后悔最小化问题,并探讨何时可以实现快速速率。
- 关键思路论文提出了强可识别性这一比分离条件更强的假设,使得算法可以同时实现快速速率和对任务数量的次线性依赖。
- 其它亮点论文首先通过开发新的下界证明了在分离条件下任务数量的线性依赖是不可避免的。然后提出了一种新的假设——强可识别性,使得算法可以同时实现快速速率和对任务数量的次线性依赖。论文还提供了实验结果和开源代码。
- 相关研究包括:元强化学习、测试时间后悔最小化、分离条件等。
沙发等你来抢
去评论
评论
沙发等你来抢