- 简介我们提出了一个关于模型错误的价值预测误差的界限,包括常数因子,这个界限是紧密的。这是强化学习中基础性结果“模拟引理”的直接改进。我们证明了现有的界限相当宽松,对于大的折扣因子来说变得无意义,这是由于对复合概率误差的次优处理。通过仔细考虑这个量本身,而不是作为价值误差的子组件,我们得出了一个相对于转移函数错误的次线性界限。然后,我们展示了这种技术的更广泛适用性,改进了相关子领域层次抽象的类似界限。
- 图表
- 解决问题提高强化学习中模型错误对价值预测误差的界限,使其更紧凑
- 关键思路通过重新考虑概率误差的复合,提出了一种更紧凑的界限方法
- 其它亮点论文提出的方法在处理概率误差的复合时更为优秀,可以在强化学习和分层抽象领域得到应用。实验结果表明,该方法比现有方法更紧凑,且在大部分情况下更为准确
- 相关研究包括“simulation lemma”和分层强化学习的界限方法
沙发等你来抢
去评论
评论
沙发等你来抢