用语言模型进行奖励设计
标题:Reward Design with Language Models
链接:https://arxiv.org/pdf/2303.00001v1.pdf
作者:Minae Kwon, Sang Michael Xie, Kalesha Bullard, Dorsa Sadigh
单位:斯坦福大学,Deepmind
摘要:
强化学习(RL)中的奖励设计是具有挑战性的,因为通过奖励函数来指定人类期望行为的概念可能很困难,这往往需要许多专家演示。我们能用自然语言界面来替代廉价的设计奖励吗?本文探讨了如何通过提示诸如 GPT-3 之类的大型语言模型作为代理奖励函数来简化奖励设计,其中用户提供包含所需行为的几个示例(few-shot)或描述(zero-shot)的文本提示。本文的方法在 RL 框架中利用了这个代理奖励函数。具体地说,用户在训练开始时指定一次提示。
在训练期间,LLM 根据提示描述的期望行为来评估 RL 代理的行为,并输出相应的奖励信号。然后,RL 代理使用该奖励来更新其行为。作者评估了该方法是否可以在最后通牒博弈、矩阵博弈和交易谈判任务中训练与用户目标一致的代理。在所有三个任务中,证明了该框架训练的 RL 代理与用户的目标很好地一致,并且比通过有监督学习学习的奖励函数训练的 RL 代理性能更好。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢