LLM-Empowered State Representation for Reinforcement Learning

简介

传统的强化学习状态表示通常省略了关键的任务相关细节，这对于价值网络来说是一个重要的挑战，因为它需要建立准确的从状态到任务奖励的映射。传统方法通常依赖于大量的样本学习，以用任务特定的信息来丰富状态表示，这导致了低样本效率和高时间成本。最近，充满活力的知识性大型语言模型（LLM）提供了有希望的替代方案，可以在最小的人类干预下注入先前的信息。受此启发，我们提出了LLM-增强状态表示（LESR），这是一种新颖的方法，利用LLM自主生成任务相关的状态表示代码，有助于增强网络映射的连续性并促进高效的训练。实验结果表明，LESR在Mujoco任务中的累积奖励平均提高了29％，在Gym-Robotics任务中的成功率平均提高了30％，表现优于现有技术基线。
图表
解决问题

如何提高强化学习中状态表示的效率和准确性？
关键思路

使用大型语言模型（LLM）自动生成任务相关的状态表示代码，以提高网络映射的连续性和训练效率。
其它亮点

论文提出了一种新颖的方法（LESR），在Mujoco和Gym-Robotics任务中表现出高样本效率和比基准方法平均高29%的累积奖励和30%的成功率。实验使用的数据集和代码已经公开。
相关研究

近期的相关研究包括《Deep Reinforcement Learning with a Natural Language Action Space》和《Learning to Communicate with Deep Multi-Agent Reinforcement Learning》等。

LLM-Empowered State Representation for Reinforcement Learning

评论