RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback

2024年02月06日
  • 简介
    在强化学习研究中,奖励工程长期以来一直是一个挑战,因为它通常需要大量人力和迭代的试错过程来设计有效的奖励函数。本文提出了一种名为RL-VLM-F的方法,它可以自动生成奖励函数,使代理能够学习新任务,仅使用任务目标的文本描述和代理的视觉观察结果,通过利用视觉语言基础模型(VLM)的反馈。我们方法的关键在于查询这些模型,根据任务目标的文本描述对代理的图像观察结果进行排序,并从偏好标签中学习奖励函数,而不是直接提示这些模型输出原始奖励分数,这可能会产生噪声和不一致性。我们证明了RL-VLM-F成功地在各种领域中产生有效的奖励和策略,包括经典控制以及刚性、关节和可变形物体的操作,无需人类监督,在相同的假设下优于使用大型预训练模型进行奖励生成的先前方法。
  • 图表
  • 解决问题
    论文旨在通过使用视觉语言基础模型(VLM)的反馈,自动生成用于强化学习的奖励函数,以解决奖励函数设计的挑战性问题。
  • 关键思路
    论文的关键思路是利用VLM模型对代理的图像观察进行偏好查询,然后从偏好标签中学习奖励函数,而不是直接从VLM模型中获取原始奖励分数,从而实现自动生成奖励函数。
  • 其它亮点
    论文在经典控制以及刚性、关节和可变形物体操纵等各个领域成功地生成了有效的奖励和策略,而且无需人类监督,超越了使用大型预训练模型进行奖励生成的先前方法。
  • 相关研究
    最近的相关研究包括使用对抗生成网络(GAN)生成奖励函数,以及使用演化算法进行奖励函数搜索。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论