LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning

2024年06月09日
  • 简介
    开发能够利用自然语言指令解决复杂机器人控制任务的交互式系统一直是机器人社区长期以来的目标。大型语言模型(LLM)在处理复杂任务方面表现出色,包括逻辑推理、上下文学习和代码生成。然而,使用LLM预测低级机器人动作存在重大挑战。此外,这种任务的复杂性通常需要获取执行多样子任务并将它们组合以达到最终目标的策略。分层强化学习(HRL)是一种解决这种任务的优雅方法,它提供了时间抽象和改进的探索直观优势。然而,由于不稳定的低级原始行为,HRL面临着非稳态的反复问题。在这项工作中,我们提出了LGR2,这是一种利用语言指令生成高层策略的稳定奖励函数的新型HRL框架。由于语言引导奖励不受低级原始行为的影响,LGR2可以缓解非稳态问题,因此是利用语言指令解决机器人控制任务的优雅方法。为了分析我们方法的有效性,我们进行了实证分析,并证明LGR2有效地缓解了HRL中的非稳态问题。我们的方法在具有挑战性的稀疏奖励机器人导航和操作环境中实现了超过70%的成功率,而基线则无法取得任何显着进展。此外,我们进行了真实世界的机器人操作实验,并证明CRISP在真实世界场景中具有令人印象深刻的泛化能力。
  • 图表
  • 解决问题
    解决问题:本文旨在解决使用自然语言指令预测低级机器人动作的问题,并提出了一种新的层次强化学习框架LGR2来解决HRL中的非稳态性问题。
  • 关键思路
    关键思路:LGR2利用语言指令生成高层策略的稳定奖励函数,从而避免了低级行为的不稳定性。
  • 其它亮点
    亮点:实验结果表明,LGR2在稀疏奖励机器人导航和操作环境中的成功率超过70%,并且在真实世界机器人操作实验中展现出了惊人的泛化能力。
  • 相关研究
    相关研究:最近的相关研究包括利用大型语言模型解决复杂任务的研究,以及基于层次强化学习的机器人控制任务的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论