谷歌｜强化学习的多任务预训练与泛化

预训练策略可以在同一游戏的变体上实现零样本迁移，而在未见过的变体上进行微调会带来泛化的改善和更快的学习；良好的学习表征对于强化学习中多任务训练的成功至关重要；增加网络容量对于在多任务设置中实现峰值性能至关重要。

本文研究了一组雅达利游戏变体的多任务预训练，然后对看不见的变体进行微调。该论文表明，虽然多任务预训练通常无助于零拍摄性能，但它显著提高了微调性能和采样效率，并且随着预训练数据集大小和变体数量的增加，这些改进会扩大。此外，研究表明，在这种多任务预培训制度中，比以前使用的更大的模型可以为预培训和微调性能提供强大的好处

Investigating Multi-task Pretraining and Generalization in Reinforcement Learning