- 简介建立能够在丰富的开放式环境中实现许多目标的通用代理是强化学习的研究前沿之一。建立具有强化学习通用代理的关键限制因素之一是需要大量的奖励函数来实现不同的目标。我们调查了使用现成的视觉语言模型(VLM)作为强化学习代理的奖励来源的可行性。我们展示了如何从CLIP模型系列中派生出视觉实现各种语言目标的奖励,并用于训练能够实现各种语言目标的强化学习代理。我们在两个不同的视觉领域展示了这种方法,并呈现了一个缩放趋势,显示更大的VLM会导致更准确的视觉目标实现奖励,从而产生更有能力的强化学习代理。
-
- 图表
- 解决问题本论文旨在探索使用现成的视觉-语言模型作为强化学习代理的奖励来源,以解决建立通用代理的问题。研究表明,建立通用代理的一个限制因素是需要大量的奖励函数来实现不同目标。
- 关键思路本文的关键思路是使用CLIP模型作为视觉目标实现的奖励来源,通过这种方式训练强化学习代理来实现各种语言目标。同时,作者还展示了如何使用更大的VLMs来提高视觉目标实现的准确性,从而产生更有能力的RL代理。
- 其它亮点本文展示了在两个不同的视觉领域中如何使用VLMs作为奖励来源来训练RL代理,以实现各种语言目标。作者还展示了使用更大的VLMs可以提高视觉目标实现的准确性和RL代理的能力。实验使用了多个数据集,并提供了开源代码。
- 最近的相关研究包括使用自监督学习来提高强化学习代理的性能,以及使用视觉-语言表示来提高图像和语言之间的交互性。相关论文包括《Unsupervised Reinforcement Learning》和《Visual-Linguistic Pretraining for Image Captioning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流