Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks

向作者提问

NEW

简介

大型语言模型（LLMs）已被证明能够执行长期规划的高级机器人任务，但现有方法需要访问预定义的技能库（例如拾取、放置、拉动、推动、导航）。然而，LLM规划并没有解决如何设计或学习这些行为，特别是在长期规划的情况下仍然具有挑战性。此外，对于许多感兴趣的任务，机器人需要能够以细粒度的方式调整其行为，这要求代理人能够修改低级控制动作。我们能否使用LLMs的互联网规模知识来进行高级策略，引导强化学习（RL）策略以在线有效地解决机器人控制任务，而不需要预先确定的技能集？在本文中，我们提出Plan-Seq-Learn（PSL）：一种模块化方法，它使用运动规划来弥合抽象语言和学习的低级控制之间的差距，以从零开始解决长期规划的机器人任务。我们证明了PSL在超过25个具有10个阶段的具有挑战性的机器人任务上实现了最先进的结果。PSL使用原始视觉输入解决了跨越四个基准的长期规划任务，成功率超过85％，优于基于语言、经典和端到端方法。视频结果和代码请参见https://mihdalal.github.io/planseqlearn/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了Plan-Seq-Learn（PSL）方法，旨在解决长期机器人任务中的高层规划问题。现有方法需要预先定义技能库，而PSL则利用大规模语言模型的知识来指导强化学习策略，无需预先确定技能集合。此外，PSL还能够在低级控制层面进行微调，使机器人能够在细粒度上调整其行为。
关键思路

PSL方法使用运动规划来连接抽象语言和学习的低级控制，从而解决长期机器人任务。PSL利用大规模语言模型的知识来指导强化学习策略，无需预先确定技能集合。
其它亮点

PSL在超过25个具有10个阶段的挑战性机器人任务上实现了最先进的结果。PSL能够从原始视觉输入中解决长期任务，并在四个基准测试中以超过85％的成功率解决了任务，优于基于语言、经典和端到端的方法。研究人员提供了视频结果和代码。
相关研究

最近在这个领域中的相关研究包括：《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《Learning to Learn how to Learn: Self-Adaptive Visual Navigation using Meta-Learning》、《Learning to Poke by Poking: Experiential Learning of Intuitive Physics》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问