Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models

向作者提问

NEW

简介

四足机器人具备在各种环境中移动和克服各种障碍的能力。例如，在搜救任务中，四足机器人可以爬过障碍物、爬行通过缝隙，并从死胡同中导航出来。然而，机器人的控制器需要智能地应对这些不同的障碍，这需要成功处理意外和不寻常的情况。这对当前的学习方法提出了一个公开的挑战，这些方法往往在没有重度人类监督的情况下难以推广到意外情况的长尾部分。为了解决这个问题，我们研究了如何利用关于世界结构和视觉语言模型（VLMs）的常识推理能力，帮助四足机器人处理困难、模糊的情况。我们提出了一个系统，VLM-Predictive Control（VLM-PC），结合两个关键组件，这些组件对于引发VLMs的即时、自适应行为选择至关重要：（1）上下文适应先前机器人交互和（2）规划多个技能到未来和重新规划。我们在几个具有挑战性的现实世界障碍课程上评估了VLM-PC，包括死胡同、爬升和爬行，使用Go1四足机器人。我们的实验表明，通过对交互历史和未来计划进行推理，VLMs使机器人能够自主感知、导航和行动，在各种复杂场景中采取行动，否则这些场景将需要特定于环境的工程或人类指导。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决机器人在处理复杂、模糊的环境中遇到的挑战，尤其是在搜索和救援任务中。同时，论文也探讨了如何将视觉-语言模型的常识推理能力应用于机器人的行为选择中。
关键思路

本文提出了一种结合视觉-语言模型和预测控制的系统，可以帮助机器人在处理复杂、模糊的环境中做出自适应的行为选择。该系统包括两个关键组件：一是对机器人之前的交互进行上下文适应，二是规划多个技能并进行重新规划。
其它亮点

本文在真实世界的障碍物场景中对Go1四足机器人进行了实验，证明了该系统可以使机器人在复杂的情况下自主感知、导航和行动，而不需要特定的环境工程或人类指导。此外，论文还提供了开源代码和数据集。
相关研究

在相关研究方面，最近也有一些关于机器人导航和行为选择的研究，例如“Learning to Navigate in Cities Without a Map”和“DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问