PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

2024年06月28日
  • 简介
    我们介绍了PoliFormer(Policy Transformer),这是一个仅使用RGB图像进行室内导航的智能体,通过大规模强化学习进行端到端训练,可以在真实世界中进行泛化,尽管它纯粹是在仿真中训练的,但无需进行适应性调整。PoliFormer使用基础视觉Transformer编码器和因果Transformer解码器,实现了长期记忆和推理。它在各种环境下进行了数亿次交互的训练,利用并行化、多机器人协同工作的方式进行高效训练,训练吞吐量高。PoliFormer是一位出色的导航员,在两个不同的机器人LoCoBot和Stretch RE-1以及四个导航基准测试中产生了最先进的结果。它突破了以前工作的瓶颈,在CHORES-S基准测试中实现了前所未有的85.5%的目标导航成功率,绝对提高了28.5%。PoliFormer还可以轻松扩展到各种下游应用程序,例如对象跟踪、多对象导航和开放词汇导航,无需进行微调。
  • 图表
  • 解决问题
    本论文旨在解决室内导航问题,通过强化学习在模拟环境下进行大规模训练,实现在真实环境下的泛化。
  • 关键思路
    论文采用了基于视觉转换器编码器和因果转换器解码器的结构,实现了长期记忆和推理能力,并通过并行化的多机器人训练,实现高效训练。
  • 其它亮点
    论文的导航智能体在两种机器人和四种导航基准测试中均取得了最先进的结果,特别是在CHORES-S基准测试中实现了85.5%的成功率,相比之前的工作有了28.5%的绝对改善。此外,论文还提出了一种扩展方法,可以轻松地应用于目标跟踪、多目标导航和开放词汇导航等领域。
  • 相关研究
    在这个领域中,最近的相关研究包括:Learning to Navigate in Cities Without a Map (ICLR 2021),Learning to Explore via Meta-Reinforcement Learning (ICLR 2021)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论