LLM-Empowered State Representation for Reinforcement Learning

2024年07月18日
  • 简介
    传统的强化学习状态表示通常省略了关键的任务相关细节,这对于价值网络来说是一个重要的挑战,因为它需要建立准确的从状态到任务奖励的映射。传统方法通常依赖于大量的样本学习,以用任务特定的信息来丰富状态表示,这导致了低样本效率和高时间成本。最近,充满活力的知识性大型语言模型(LLM)提供了有希望的替代方案,可以在最小的人类干预下注入先前的信息。受此启发,我们提出了LLM-增强状态表示(LESR),这是一种新颖的方法,利用LLM自主生成任务相关的状态表示代码,有助于增强网络映射的连续性并促进高效的训练。实验结果表明,LESR在Mujoco任务中的累积奖励平均提高了29%,在Gym-Robotics任务中的成功率平均提高了30%,表现优于现有技术基线。
  • 图表
  • 解决问题
    如何提高强化学习中状态表示的效率和准确性?
  • 关键思路
    使用大型语言模型(LLM)自动生成任务相关的状态表示代码,以提高网络映射的连续性和训练效率。
  • 其它亮点
    论文提出了一种新颖的方法(LESR),在Mujoco和Gym-Robotics任务中表现出高样本效率和比基准方法平均高29%的累积奖励和30%的成功率。实验使用的数据集和代码已经公开。
  • 相关研究
    近期的相关研究包括《Deep Reinforcement Learning with a Natural Language Action Space》和《Learning to Communicate with Deep Multi-Agent Reinforcement Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论