Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts

向作者提问

NEW

简介

为了让一般用途的机器人能够在现实中运作，执行各种指令并适应各种环境是至关重要的。强化学习和计划对于这种机器人代理至关重要的是一个通用的奖励函数。最近在视觉语言模型（如CLIP）方面取得的进展在深度学习领域表现出色，为开放领域视觉识别铺平了道路。然而，收集机器人在多个环境中执行各种语言指令的数据仍然是一个挑战。本文旨在将具有强大泛化能力的视频语言模型转化为可通用的语言条件奖励函数，仅利用来自单一环境中极少量任务的机器人视频数据。与训练奖励函数的常见机器人数据集不同，人类视频语言数据集很少包含微不足道的失败视频。为了增强模型区分成功和失败机器人执行的能力，我们对失败视频特征进行聚类，使模型能够识别其中的模式。对于每个聚类，我们将新训练的失败提示集成到文本编码器中，以表示相应的失败模式。我们的语言条件奖励函数在新环境和新指令的机器人规划和强化学习方面表现出卓越的泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何利用少量任务的机器人视频数据，训练出具有泛化性的语言条件奖励函数，以便在多个环境和任务中用于机器人规划和强化学习？
关键思路

使用视频-语言模型，将机器人视频数据转化为泛化的语言条件奖励函数。通过聚类机器人失败视频特征，将失败模式集成到文本编码器中，以增强模型识别机器人执行成功和失败的能力。
其它亮点

论文使用CLIP等最新的视觉-语言模型，将机器人视频数据转化为泛化的语言条件奖励函数。为了增强模型的识别能力，论文将机器人失败视频特征进行聚类，并将失败模式集成到文本编码器中。实验结果表明，该方法在新的环境和任务中表现出了优异的泛化能力。
相关研究

最近的相关研究包括：《Unsupervised Discovery of Object Landmarks as Structural Representations》、《Learning to Learn from Failure: Handling Uncertainty in Deep Reinforcement Learning via Model-Based Control》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问