最近,DeepMind 的研究者提出了 CoBERL(Contrastive BERT for RL)智能体,它结合了新的对比损失和混合 LSTM-transformer 架构,以提高处理数据效率。CoBERL 使得从更广泛领域使用像素级信息进行高效、稳健学习成为可能。

具体地,研究者使用双向掩码预测,并且结合最近的对比方法泛化,来学习 RL 中 transformer 更好的表征,而这一过程不需要手动进行数据扩充。实验表明,CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。

论文地址:https://arxiv.org/pdf/2107.05431.pdf