【论文标题】Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings 【作者团队】Lili Chen, Kimin Lee, Aravind Srinivas, Pieter Abbeel 【发表时间】2021/03/04 【机 构】加州大学伯克利分校 【论文链接】https://arxiv.org/pdf/2103.02886.pdf
【推荐理由】本文出自加州大学伯克利分校,针对于现有强化学习(RL)的计算和内存需求,提出了用于有效强化学习(SEER)的存储嵌入,减少CNN中梯度更新的计算开销,存储低维潜在矢量来减少内存需求。实验结果表明SEER对RL的计算效率及转移学习有较大作用。
非政策性深度强化学习(RL)的最新进展已使目视观察在复杂任务中取得了令人瞩目的成功。经验重播通过重用过去的经验来提高样本效率,而卷积神经网络(CNN)可有效处理高维输入。但是,这样的技术需要高存储和计算带宽。在本文中,作者团队提出了用于有效强化学习(SEER)的存储嵌入,这是对现有非策略RL方法的简单修改,以解决这些计算和内存需求。为了减少CNN中梯度更新的计算开销,由于其参数的早期收敛,在训练的早期冻结了CNN编码器的较低层。此外,通过存储用于体验重播的低维潜在矢量而不是高维图像来减少内存需求,从而可以自适应地增加重播缓冲区的容量,这是在受限内存设置中的一种有用技术。实验表明SEER不会降低RL代理的性能,同时可以大大节省各种DeepMind Control环境和Atari游戏中的计算和内存。最后,证明SEER对于RL中的计算效率及转移学习很有用,因为CNN的较低层提取了可概括的特征,这些特征可用于不同的任务和领域。
下图为本文的架构示意图。(a)在冻结编码器之前,所有向前和向后的传递都通过网络处于活动状态,并且将图像存储在重播缓冲区中;(b)冻结后,将潜在向量存储在重播缓冲区中,并删除所有通过编码器的正向和反向传递。 由于潜在向量的维数相对较低,因此可以将更多样本存储在重播缓冲区中。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢