VICtoR: Learning Hierarchical Vision-Instruction Correlation Rewards for Long-horizon Manipulation

向作者提问

NEW

简介

我们通过学习无动作视频和语言指令来研究长时间跨度操纵任务的奖励模型，我们称之为视觉-指令相关性（VIC）问题。跨模态建模的最新进展已经突显出通过视觉和语言相关性进行奖励建模的潜力。然而，现有的VIC方法在学习长时间跨度任务的奖励时面临着挑战，因为它们缺乏子阶段意识，在建模任务复杂性和不足的对象状态估计方面存在困难。为了解决这些挑战，我们引入了VICtoR，这是一个新颖的分层VIC奖励模型，能够为长时间跨度操纵任务提供有效的奖励信号。VICtoR通过一个新颖的阶段检测器和运动进度评估器精确评估各个层次的任务进展，为学习任务的代理提供深入的指导。为了验证VICtoR的有效性，我们在模拟和实际环境中进行了大量实验。结果表明，VICtoR优于现有的最佳VIC方法，在长时间跨度任务的成功率方面提高了43%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决长期操作任务中奖励模型的学习问题。现有的视觉-指令相关（VIC）方法由于缺乏子阶段意识、难以建模任务复杂性以及不足的对象状态估计而面临学习长期操作任务奖励的挑战。
关键思路

本论文提出了一种新的层次化VIC奖励模型VICtoR，通过引入阶段检测器和动作进度评估器，能够有效地为长期操作任务提供奖励信号。VICtoR能够精确地评估任务在不同层次上的进展，并为学习任务的代理提供有益的指导。
其它亮点

本论文在模拟和现实环境中进行了大量实验，结果表明VICtoR优于现有的VIC方法，长期操作任务的成功率提高了43%。此外，论文还使用了行动自由的视频和语言指令进行奖励模型的学习，这是该领域的一个亮点。
相关研究

与本论文相关的研究包括：使用视觉和语言相关性进行奖励建模的交叉模态建模方法；基于视觉-语言相关性的奖励模型的方法，如VILD和CURL。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问