- 简介传统的强化学习状态表示通常省略了关键的任务相关细节,这对于价值网络来说是一个重要的挑战,因为它需要建立准确的从状态到任务奖励的映射。传统方法通常依赖于大量的样本学习,以用任务特定的信息来丰富状态表示,这导致了低样本效率和高时间成本。最近,充满活力的知识性大型语言模型(LLM)提供了有希望的替代方案,可以在最小的人类干预下注入先前的信息。受此启发,我们提出了LLM-增强状态表示(LESR),这是一种新颖的方法,利用LLM自主生成任务相关的状态表示代码,有助于增强网络映射的连续性并促进高效的训练。实验结果表明,LESR在Mujoco任务中的累积奖励平均提高了29%,在Gym-Robotics任务中的成功率平均提高了30%,表现优于现有技术基线。
- 图表
- 解决问题如何提高强化学习中状态表示的效率和准确性?
- 关键思路使用大型语言模型(LLM)自动生成任务相关的状态表示代码,以提高网络映射的连续性和训练效率。
- 其它亮点论文提出了一种新颖的方法(LESR),在Mujoco和Gym-Robotics任务中表现出高样本效率和比基准方法平均高29%的累积奖励和30%的成功率。实验使用的数据集和代码已经公开。
- 近期的相关研究包括《Deep Reinforcement Learning with a Natural Language Action Space》和《Learning to Communicate with Deep Multi-Agent Reinforcement Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢