On the Convergence and Stability of Upside-Down Reinforcement Learning,
Goal-Conditioned Supervised Learning, and Online Decision Transformers
本文对Episodic Upside-Down 强化学习、目标条件监督学习和在线决策转换器的收敛性和稳定性进行了严格的分析。这些算法在从游戏到机器人任务的各种基准测试中表现出色,但对其理论理解仅限于特定的环境条件。这项工作为基于广泛范式的算法奠定了理论基础,这些算法通过监督学习或序列建模方法来处理强化学习问题。研究的核心在于分析底层环境的条件,在这些条件下,算法能够识别最优解。我们还评估了在环境受到极小噪声影响的情况下,新兴解决方案是否保持稳定。
具体而言,我们研究了命令条件策略、价值和目标达成目标的连续性和渐近收敛性,这些都依赖于底层马尔可夫决策过程的转移核。我们证明了如果转移核位于确定性核的足够小邻域内,则可以实现接近最优的行为。所提到的数量(策略、价值等)在确定性核处是连续的(针对特定拓扑结构),无论是在渐近情况下还是在有限的学习周期后。开发的方法使我们能够首次明确估计策略和价值的收敛性和稳定性,这些估计基于底层转移核。
在理论方面,我们引入了一些新的概念到强化学习领域,例如在片段空间中工作、在商拓扑中研究连续性以及应用动力系统理论中的不动点理论。理论研究伴随着对示例环境的详细调查和数值实验。