- 简介使用强化学习(RL)解决长时间跨度的任务是具有挑战性的,尤其是在没有先前知识(或白板学习)的情况下进行学习。人类可以生成并执行具有时间跨度的行动计划,并快速学习执行新任务,因为我们几乎从不从零开始解决问题。我们希望自主代理能够具备这种能力。最近,已经证明LLM对世界的知识进行了大量编码,并且可以在上下文中进行出色的学习和推理。然而,使用LLM解决现实世界的问题很困难,因为它们不依赖于当前任务。在本文中,我们利用LLM的计划能力,同时使用RL从环境中提供学习,从而产生使用LLM解决长时间跨度任务的分层代理。它们指导高级策略,而不是完全依赖于LLM,从而使学习效率显著提高。这种方法在MiniGrid、SkillHack和Crafter等模拟环境以及在块操作任务中的真实机器人手臂上进行评估。我们展示了使用我们方法训练的代理优于其他基线方法,并且一旦训练完成,在部署期间不需要访问LLM。
- 图表
- 解决问题如何在Reinforcement Learning中解决长期、时间扩展任务的挑战?如何让自主代理能够像人类一样生成和执行计划,快速学习新任务?
- 关键思路通过将LLMs的规划能力与RL相结合,构建一个分层代理,使用LLMs解决长期任务,同时使用RL从环境中学习,从而使学习更具样本效率。
- 其它亮点实验在MiniGrid、SkillHack和Crafter等模拟环境以及实际机器人手臂上进行,表明使用该方法训练的代理优于其他基线方法,并且在训练后不需要在部署期间访问LLMs。该论文的亮点在于通过将RL和LLMs相结合,解决了长期任务的挑战,并提高了学习效率。
- 相关论文包括:1. 'Playing Atari with Deep Reinforcement Learning' by Volodymyr Mnih et al. at Google DeepMind; 2. 'Learning to Navigate in Complex Environments' by Yuke Zhu et al. at UC Berkeley; 3. 'Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition' by Thomas G. Dietterich at Oregon State University.
沙发等你来抢
去评论
评论
沙发等你来抢