LLM Augmented Hierarchical Agents

简介

使用强化学习（RL）解决长时间跨度的任务是具有挑战性的，尤其是在没有先前知识（或白板学习）的情况下进行学习。人类可以生成并执行具有时间跨度的行动计划，并快速学习执行新任务，因为我们几乎从不从零开始解决问题。我们希望自主代理能够具备这种能力。最近，已经证明LLM对世界的知识进行了大量编码，并且可以在上下文中进行出色的学习和推理。然而，使用LLM解决现实世界的问题很困难，因为它们不依赖于当前任务。在本文中，我们利用LLM的计划能力，同时使用RL从环境中提供学习，从而产生使用LLM解决长时间跨度任务的分层代理。它们指导高级策略，而不是完全依赖于LLM，从而使学习效率显著提高。这种方法在MiniGrid、SkillHack和Crafter等模拟环境以及在块操作任务中的真实机器人手臂上进行评估。我们展示了使用我们方法训练的代理优于其他基线方法，并且一旦训练完成，在部署期间不需要访问LLM。
图表
解决问题

如何在Reinforcement Learning中解决长期、时间扩展任务的挑战？如何让自主代理能够像人类一样生成和执行计划，快速学习新任务？
关键思路

通过将LLMs的规划能力与RL相结合，构建一个分层代理，使用LLMs解决长期任务，同时使用RL从环境中学习，从而使学习更具样本效率。
其它亮点

实验在MiniGrid、SkillHack和Crafter等模拟环境以及实际机器人手臂上进行，表明使用该方法训练的代理优于其他基线方法，并且在训练后不需要在部署期间访问LLMs。该论文的亮点在于通过将RL和LLMs相结合，解决了长期任务的挑战，并提高了学习效率。
相关研究

相关论文包括：1. 'Playing Atari with Deep Reinforcement Learning' by Volodymyr Mnih et al. at Google DeepMind; 2. 'Learning to Navigate in Complex Environments' by Yuke Zhu et al. at UC Berkeley; 3. 'Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition' by Thomas G. Dietterich at Oregon State University.

LLM Augmented Hierarchical Agents

评论