- 简介本文提出了 RLingua 框架,该框架可以利用大型语言模型(LLMs)的内部知识来降低机器人操作中强化学习(RL)的样本复杂度。为此,我们首先介绍了如何通过提示工程来提取LLMs的先验知识,从而生成特定任务的初步基于规则的机器人控制器。尽管不完美,但LLM生成的机器人控制器被用于在滚动过程中以逐渐减少的概率产生动作样本,从而提高了RL的样本效率。我们采用演员-评论家框架,并修改演员损失以规范化策略学习向LLM生成的控制器。RLingua还提供了一种通过RL改进不完美的LLM生成的机器人控制器的新方法。我们证明了RLingua可以显著降低 panda_gym 机器人任务中 TD3 的样本复杂度,并在 RLBench 中的稀疏奖励机器人任务中实现了高成功率,而标准 TD3 则失败了。此外,我们通过 Sim2Real 在真实机器人实验中验证了 RLingua 的有效性,证明学习的策略可以有效地转移到真实机器人任务中。关于我们的工作的更多细节和视频可在我们的项目网站 https://rlingua.github.io 上找到。
-
- 图表
- 解决问题本论文旨在解决强化学习在机器人操作中低样本效率的问题,并提出了一种利用大型语言模型的内部知识来减少样本复杂度的框架RLingua。
- 关键思路通过Prompt engineering提取LLM的先验知识,生成特定任务的初步基于规则的机器人控制器。然后利用这个控制器在rollouts期间以逐渐减少的概率产生动作样本,从而提高RL的样本效率。同时,修改演员损失以使策略学习朝着LLM生成的控制器进行正则化。
- 其它亮点RLingua可以显著降低TD3在panda_gym机器人任务中的样本复杂度,并在RLBench中的稀疏奖励机器人任务中实现高成功率。此外,通过Sim2Real验证了RLingua在真实机器人任务中的有效性。论文提供了项目网站https://rlingua.github.io,其中包括更多细节和视频。
- 最近的相关研究包括使用大型语言模型进行控制的方法,以及利用先验知识来提高强化学习样本效率的方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流