多种多任务数据的可扩展和泛化离线 Q 学习

【标题】Offline Q-learning on Diverse Multi-Task Data Both Scales And Generalizes

【发表日期】2022.9.22

【论文链接】https://openreview.net/pdf?id=4-k7kUavAj

【推荐理由】离线强化学习 (RL) 的潜力在于，在大型异构数据集上训练的高容量模型可以产生广泛泛化的智能体。然而，最近的研究表明，离线强化学习方法在扩大模型容量方面遇到了独特的挑战。借鉴这些工作的经验，作者重新审视了以前的设计选择，并发现通过适当的选择：ResNet、基于交叉熵的分布式备份和特征归一化，离线 Q 学习算法表现出随模型容量扩展的强大性能。与之前的工作相比，即使完全在大型但非常次优的数据集上进行训练（51%的人类水平的性能），也可以推断出数据集的性能。与返回条件监督方法相比，离线 Q-learning 与模型容量的比例相似并且具有更好的性能，尤其是当数据集不是最优的时候。最后，作者表明，具有多样化数据集的离线 Q 学习足以学习强大的表示。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

多种多任务数据的可扩展和泛化离线 Q 学习

评论