Csaba Szepesvári在2020年数据挖掘顶会KDD的Deep Learning Day做了题为Myths and Misconceptions in Reinforcement Learning的讲座。 强化学习发展很多年了,尤其近年,有很多论文出来。根据多年的经验,碰到了很多RL的“神话”(Myths)和“鬼话”(Misconceptions)。这个讲座分两部分。首先鸟瞰一下RL,讨论一下,1)要不要学习RL,2)RL是不是有很多问题,3)RL与相邻学科的关系如何。然后讨论一些“Meta consideration”. 有些专门的讨论,也有笼统的讨论。 有三类基本的RL问题:Online RL, Batch RL, Planning/simulation optimization. 当然有很多变种。 在Online RL中,智能体与环境交互,一开始对环境不了解,或者只是部分了解。智能体在环境中学习,不过目的不是学习环境,而是从长远看,收集尽可能多的奖赏,平均的或总的长期的奖赏作为评判标准。
在Batch RL中,有一批数据,可能是历史数据,也可能是通过与受控系统交互得到的数据。有了数据,便于强化学习的实际应用。基于这些数据,学习用某个策略来控制系统,让系统有更好的性能。
第三类RL问题,规划/仿真优化。应该说,不是自己独立成为一个问题,而是上面两类RL问题的子问题。这里,有仿真器,与之交互,设计算法用最少的计算、最少的仿真,找到最优策略来控制仿真器。这是一个纯计算问题。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢