强化学习(RL)通过与复杂环境的交互,推动机器学习从基础数据拟合到学习和规划的新时代。RL具有深度学习功能,在自动驾驶、推荐系统、无线通信、机器人、游戏等领域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基础发展,直到最近才被彻底理解,特别是它们的有限时间收敛速度和样本复杂性。本教程将全面概述基础RL算法的理论理解的最新进展,利用随机近似/优化理论和利用RL问题的马尔可夫结构。本教程还将介绍一些高级的RL算法及其最近的发展。

论文链接:http://www.acsu.buffalo.edu/~szou3/slides/rltutorial.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除