Yell At Your Robot: Improving On-the-Fly from Language Corrections

简介

本文研究了将语言和低层控制相结合的分层策略，这些策略可以通过利用预先训练的语言和视觉语言模型（LLMs/VLMs）或在机器人演示中训练的模型来完成长时间跨度的机器人任务。然而，对于复杂和灵巧的技能，实现长时间跨度任务的高成功率仍然是一个重大挑战，因为任务越长，越有可能在某个阶段失败。人类能否通过直觉和自然反馈帮助机器人不断改进其长时间跨度任务的表现呢？本文观察到，可以通过高级策略来索引足够丰富和表达能力的低级语言条件技能，并通过语言纠正等形式的人类反馈来监督这些高级策略。本文表明，即使是微小的移动（例如“向左移动一点”）等细微的纠正也可以有效地纳入高级策略中，并且这样的纠正可以轻松地从观察机器人并偶尔提出建议的人类获得。这个框架不仅使机器人能够快速适应实时的语言反馈，还可以将这个反馈纳入迭代训练方案中，从而提高高级策略在纠正低级执行和高级决策方面的错误的能力，而这些纠正纯粹来自于口头反馈。我们在实际硬件上的评估表明，这导致了长时间跨度、灵巧操作任务的显着性能提高，而无需任何额外的远程操作。视频和代码可在 https://yay-robot.github.io/ 上获得。

作者讲解·1

讲解视频
相关报道(1)

图表

解决问题

论文旨在解决长时程、复杂机器人任务的高成功率问题，通过人类语言纠错来不断改进机器人的表现。

关键思路

论文提出了一种基于人类语言纠错的机器人控制框架，将人类语言纠错作为高层策略的反馈，不断改进机器人的表现。

其它亮点

论文实现了一种基于人类语言纠错的机器人控制框架，能够在长时程、复杂机器人任务中显著提高机器人的表现。论文还提供了视频和代码，方便其他研究者进行复现和改进。

Yell At Your Robot: Improving On-the-Fly from Language Corrections

提问交流

提问交流