强化学习 (RL) 中的奖励设计具有挑战性,因为通过奖励函数指定人类对期望行为的概念可能很困难,或者需要许多专家演示。 我们是否可以使用自然语言界面来廉价地设计奖励? 本文探讨了如何通过提示大型语言模型(LLM)(例如 GPT-3)作为代理奖励函数来简化奖励设计,其中用户提供包含一些示例(few-shot)或描述(零- 镜头)所需的行为。 我们的方法在 RL 框架中利用了这个代理奖励函数。 具体来说,用户在训练开始时指定一次提示。 在训练期间,LLM 根据提示描述的期望行为评估 RL 代理的行为,并输出相应的奖励信号。 然后 RL 代理使用此奖励来更新其行为。 我们评估我们的方法是否可以训练与 Ultimatum Game、矩阵游戏和 DealOrNoDeal 谈判任务中的用户目标一致的代理。 在所有这三个任务中,我们表明使用我们的框架训练的 RL 代理与用户的目标非常一致,并且优于使用通过监督学习学习的奖励函数训练的 RL 代理。
论文标题:Reward Design with Language Models
论文链接:https://arxiv.org/pdf/2303.00001.pdf
本文介绍了使用 LLM 作为代理奖励函数的想法,主要贡献如下:
- 提出了一个通用的 RL 训练框架,该框架利用此代理奖励并且与所使用的 RL 算法无关。
- 与基线相比,LLM 可以更准确地训练目标对齐的 RL 代理,平均提高 35%。
- 对 10 名人类用户进行了一项试点研究, 用户认为我们的代理比使用不同代理训练的代理更符合他们的目标。
- 提供进一步分析,量化我们的方法所需的用户数据量,以及不同提示对 LLM 奖励信号准确性的影响。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢