【标题】Offline Q-learning on Diverse Multi-Task Data Both Scales And Generalizes

【发表日期】2022.9.22

【论文链接】https://openreview.net/pdf?id=4-k7kUavAj

【推荐理由】离线强化学习 (RL) 的潜力在于,在大型异构数据集上训练的高容量模型可以产生广泛泛化的智能体。 然而,最近的研究表明,离线强化学习方法在扩大模型容量方面遇到了独特的挑战。 借鉴这些工作的经验,作者重新审视了以前的设计选择,并发现通过适当的选择:ResNet、基于交叉熵的分布式备份和特征归一化,离线 Q 学习算法表现出随模型容量扩展的强大性能。与之前的工作相比,即使完全在大型但非常次优的数据集上进行训练(51%的人类水平的性能),也可以推断出数据集的性能。与返回条件监督方法相比,离线 Q-learning 与模型容量的比例相似并且具有更好的性能,尤其是当数据集不是最优的时候。 最后,作者表明,具有多样化数据集的离线 Q 学习足以学习强大的表示。