World Models with Hints of Large Language Models for Goal Achieving

2024年06月11日
  • 简介
    强化学习在面对长期任务和稀疏目标时很难进行手动奖励规定,因此存在困难。虽然现有的方法通过添加内在奖励来解决这个问题,但在状态和动作空间较大的长期决策任务中,它们可能无法提供有意义的指导,缺乏有目的的探索。受人类认知的启发,我们提出了一种新的多模态模型驱动的强化学习方法,称为“使用大型语言模型进行梦想探索”(DLLM)。DLLM将LLMs提出的提示子目标集成到模型的回滚中,以鼓励在具有挑战性的任务中发现和达成目标。通过在模型回滚期间将更高的内在奖励分配给与语言模型提供的提示相符的样本,DLLM指导代理向有意义且高效的探索方向发展。广泛的实验表明,DLLM在各种具有挑战性的稀疏奖励环境中的表现优于最近的方法,例如HomeGrid、Crafter和Minecraft,分别提高了27.7%、21.1%和9.9%。
  • 图表
  • 解决问题
    本论文旨在解决强化学习在长期任务和稀疏目标方面的困难,通过整合大型语言模型的提示子目标来提高目标发现和达成的效率。
  • 关键思路
    论文提出了一种新的多模态模型RL方法,名为DLLM,通过在模型回放中将LLMs的提示子目标整合到模型回放中,来引导代理人进行有意义和高效的探索。
  • 其它亮点
    该方法在HomeGrid、Crafter和Minecraft等各种具有挑战性的稀疏奖励环境中优于最近的方法,分别提高了27.7%,21.1%和9.9%。
  • 相关研究
    近期的相关研究包括:《Reinforcement Learning with Augmented Data》、《Combining Self-Supervised Learning and Imitation for Vision-Based Rope Manipulation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论