True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning

向作者提问

NEW

简介

尽管大型语言模型在许多任务上表现出色，但由于知识与环境不匹配，它们经常无法解决简单的决策任务。相反，强化学习代理从零开始学习策略，这使它们始终与环境保持一致，但难以融合先前的知识以进行有效的探索。为了缩小这一差距，我们提出了TWOSOME，一种新的通用在线框架，它将LLMs部署为决策代理，通过RL与具体环境高效交互和对齐，而不需要任何准备好的数据集或环境的先前知识。首先，我们使用LLMs查询每个有效动作的联合概率来形成行为策略。然后，为了增强策略的稳定性和鲁棒性，我们提出了两种归一化方法并总结了四个提示设计原则。最后，我们设计了一种新的参数有效的训练架构，其中演员和评论家共享一个带有低秩适配器（LoRA）的冻结LLM，通过PPO进行更新。我们进行了大量实验来评估TWOSOME。i）与传统的RL方法PPO和提示调整方法SayCan相比，TWOSOME在经典的决策制定环境Overcooked和模拟家庭环境VirtualHome中表现出更好的样本效率和性能。ii）由于LLMs的开放词汇特性，TWOSOME表现出更好的对未见任务的泛化能力。iii）在我们的框架下，在线PPO微调期间LLMs的原始能力没有显著损失。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型语言模型（LLMs）在简单决策任务中无法与环境对齐的问题，同时解决强化学习（RL）代理从零开始学习策略的困难，提出了TWOSOME框架。
关键思路

TWOSOME框架将LLMs作为决策代理，通过RL与环境进行有效交互和对齐，不需要任何准备好的数据集或环境的先前知识。
其它亮点

论文提出了两种规范化方法和四个提示设计原则来增强策略的稳定性和鲁棒性。设计了一种新颖的参数高效的训练架构，其中演员和评论家共享一个带有低秩适配器（LoRA）的冻结LLM，由PPO更新。在经典决策制定环境Overcooked和模拟家庭环境VirtualHome中，TWOSOME表现出比传统RL方法PPO和提示调整方法SayCan更高的样本效率和性能。由于LLMs的开放词汇特性，TWOSOME表现出卓越的泛化能力，能够处理未见过的任务。在我们的框架下，进行在线PPO微调时没有显著损失LLMs的原始能力。
相关研究

最近的相关研究包括使用LLMs进行强化学习的工作，如GPT-RL和COMBO，以及使用提示进行强化学习的工作，如SayCan。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问