预训练策略可以在同一游戏的变体上实现零样本迁移,而在未见过的变体上进行微调会带来泛化的改善和更快的学习;良好的学习表征对于强化学习中多任务训练的成功至关重要;增加网络容量对于在多任务设置中实现峰值性能至关重要。

本文研究了一组雅达利游戏变体的多任务预训练,然后对看不见的变体进行微调。该论文表明,虽然多任务预训练通常无助于零拍摄性能,但它显著提高了微调性能和采样效率,并且随着预训练数据集大小和变体数量的增加,这些改进会扩大。此外,研究表明,在这种多任务预培训制度中,比以前使用的更大的模型可以为预培训和微调性能提供强大的好处

Investigating Multi-task Pretraining and Generalization in Reinforcement Learning

Adrien Ali TaigaRishabh AgarwalJesse Farebrother、Aaron Courville、Marc G Bellemare
[Google Brain]

强化学习的多任务预训练与泛化

要点:

  1. 预训练可以提高强化学习的泛化能力,对未见过的变体进行微调是利用先验经验的一种有效方式;

  2. 一个好的学习表征是强化学习中多任务训练成功的关键,增加预训练数据量可以提高微调的性能;

  3. 高容量的网络对于在多任务设置中实现峰值性能至关重要,具有数千万参数的残差网络可以使用在线强化学习进行训练;

  4. 本文工作让人们看到了大规模多任务强化学习的潜力,但要取得进一步的进展,还需要更多多样化的数据和更大的网络。

https://openreview.net/forum?id=sSt9fROSZRO 
图片
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除