- 简介在强化学习研究中,奖励工程长期以来一直是一个挑战,因为它通常需要大量人力和反复试错的迭代过程来设计有效的奖励函数。本文提出了RL-VLM-F方法,该方法仅利用任务目标的文本描述和代理的视觉观察,通过利用视觉语言基础模型(VLM)的反馈,自动生成代理学习新任务的奖励函数。我们方法的关键在于查询这些模型,根据任务目标的文本描述,对代理的图像观察对进行偏好,并从偏好标签中学习奖励函数,而不是直接提示这些模型输出原始奖励分数,这可能会产生噪声和不一致性。我们证明了RL-VLM-F成功地在各种领域中产生了有效的奖励和策略,包括经典控制以及刚体、关节和可变形物体的操作,而无需人类监督,在相同的假设下优于使用大型预训练模型进行奖励生成的先前方法。
- 解决问题自动生成奖励函数是强化学习中的挑战之一,本文旨在提出一种利用视觉语言基础模型(VLMs)的反馈来自动生成奖励函数的方法,以解决这一问题。
- 关键思路本文的关键思路是通过查询VLMs来为代理生成奖励函数,然后从偏好标签中学习奖励函数,而不是直接提示这些模型输出原始奖励分数。这种方法可以在不需要人类监督的情况下成功生成有效的奖励和策略。
- 其它亮点本文的实验结果表明,RL-VLM-F方法可以在经典控制以及刚性、关节和可变形物体的操作等各种领域内成功生成有效的奖励和策略,而且不需要人类监督,表现优于使用大型预训练模型进行奖励生成的先前方法。
- 在相关研究方面,最近的一些研究包括使用基于语言的奖励函数和使用预训练模型进行奖励生成。
沙发等你来抢
去评论
评论
沙发等你来抢