- 简介大型语言模型(LLMs)已被证明能够执行长期规划的高级机器人任务,但现有方法需要访问预定义的技能库(例如拾取、放置、拉动、推动、导航)。然而,LLM规划并没有解决如何设计或学习这些行为,特别是在长期规划的情况下仍然具有挑战性。此外,对于许多感兴趣的任务,机器人需要能够以细粒度的方式调整其行为,这要求代理人能够修改低级控制动作。我们能否使用LLMs的互联网规模知识来进行高级策略,引导强化学习(RL)策略以在线有效地解决机器人控制任务,而不需要预先确定的技能集?在本文中,我们提出Plan-Seq-Learn(PSL):一种模块化方法,它使用运动规划来弥合抽象语言和学习的低级控制之间的差距,以从零开始解决长期规划的机器人任务。我们证明了PSL在超过25个具有10个阶段的具有挑战性的机器人任务上实现了最先进的结果。PSL使用原始视觉输入解决了跨越四个基准的长期规划任务,成功率超过85%,优于基于语言、经典和端到端方法。视频结果和代码请参见https://mihdalal.github.io/planseqlearn/。
-
- 图表
- 解决问题论文提出了Plan-Seq-Learn(PSL)方法,旨在解决长期机器人任务中的高层规划问题。现有方法需要预先定义技能库,而PSL则利用大规模语言模型的知识来指导强化学习策略,无需预先确定技能集合。此外,PSL还能够在低级控制层面进行微调,使机器人能够在细粒度上调整其行为。
- 关键思路PSL方法使用运动规划来连接抽象语言和学习的低级控制,从而解决长期机器人任务。PSL利用大规模语言模型的知识来指导强化学习策略,无需预先确定技能集合。
- 其它亮点PSL在超过25个具有10个阶段的挑战性机器人任务上实现了最先进的结果。PSL能够从原始视觉输入中解决长期任务,并在四个基准测试中以超过85%的成功率解决了任务,优于基于语言、经典和端到端的方法。研究人员提供了视频结果和代码。
- 最近在这个领域中的相关研究包括:《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《Learning to Learn how to Learn: Self-Adaptive Visual Navigation using Meta-Learning》、《Learning to Poke by Poking: Experiential Learning of Intuitive Physics》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流