综合LSTM、transformer优势，DeepMind强化学习智能体提高数据效率

最近，DeepMind 的研究者提出了 CoBERL（Contrastive BERT for RL）智能体，它结合了新的对比损失和混合 LSTM-transformer 架构，以提高处理数据效率。CoBERL 使得从更广泛领域使用像素级信息进行高效、稳健学习成为可能。

具体地，研究者使用双向掩码预测，并且结合最近的对比方法泛化，来学习 RL 中 transformer 更好的表征，而这一过程不需要手动进行数据扩充。实验表明，CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。

论文地址：https://arxiv.org/pdf/2107.05431.pdf