再掀强化学习变革！DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

去年开始，已经有相关工作证明，通过将离线强化学习（offline RL）视为一个序列预测问题，那么模型就可以从离线数据中学习策略。

但目前的方法要么是从不包含学习的数据中学习策略（如通过蒸馏固定的专家策略），要么是从包含学习的数据（如智能体的重放缓冲区）中学习，但由于其context太小，以至于无法捕捉到策略提升。

DeepMind的研究人员通过观察发现，原则上强化学习算法训练中学习的顺序性（sequential nature）可以将强化学习过程本身建模为一个「因果序列预测问题」。

具体来说，如果一个Transformer的上下文足够长到可以包含由于学习更新而产生的策略改进，那它应该不仅能够表示一个固定的策略，而且能够通过关注之前episodes的状态、行动和奖励表示为一个策略提升算子（policy improvement operator）。

这也提供了一种技术上的可行性，即任何RL算法都可以通过模仿学习蒸馏成一个足够强大的序列模型，并将其转化为一个in-context RL算法。

基于此，DeepMind提出了算法蒸馏(Algorithm Distillation, AD) ，通过建立因果序列模型将强化学习算法提取到神经网络中。

内容中包含的图片若涉及版权问题，请及时与我们联系删除