LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning

简介

开发利用自然语言指令解决复杂机器人控制任务的交互式系统一直是机器人学界长期以来的目标。大型语言模型（LLMs）已经展示了处理复杂任务的卓越能力，包括逻辑推理、上下文学习和代码生成。然而，使用LLMs预测低级机器人动作存在显著挑战。此外，这种任务的复杂性通常要求获取执行不同子任务并将它们组合以达到最终目标的策略。分层强化学习（HRL）是解决这种任务的一种优雅方法，它提供了时间抽象和改进探索的直观优势。然而，由于不稳定的低级原始行为，HRL面临着非稳态的反复问题。在这项工作中，我们提出了LGR2，这是一种新颖的HRL框架，利用语言指令生成高级策略的静态奖励函数。由于语言引导奖励不受低级原始行为的影响，LGR2减轻了非稳态问题，因此是利用语言指令解决机器人控制任务的一种优雅方法。为了分析我们方法的有效性，我们进行了实证分析，并证明LGR2有效地缓解了HRL中的非稳态问题。我们的方法在具有挑战性的稀疏奖励机器人导航和操作环境中实现了超过70％的成功率，而基线未能取得任何显着进展。此外，我们进行了真实世界的机器人操作实验，并展示了CRISP在真实场景中的惊人泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决利用自然语言指令解决复杂机器人控制任务的问题，同时解决了基于大型语言模型预测低级机器人行为的挑战。
关键思路

LGR2是一种新颖的分层强化学习框架，利用语言指令生成高层策略的固定奖励函数，从而减轻非稳态性问题。
其它亮点

论文通过实验分析表明LGR2有效减轻了HRL的非稳态性问题，并在具有挑战性的稀疏奖励机器人导航和操作环境中取得了超过70％的成功率。此外，论文还进行了真实世界机器人操作实验，并展示了CRISP在现实场景中的卓越泛化能力。
相关研究

在这个领域中，最近的相关研究包括“Natural Language Interaction with Robots”和“Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition”。

LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning

提问交流

提问交流