GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

简介

我们引入了一个流程，通过整合人类行为的观察结果来增强通用视觉语言模型GPT-4V（ision），以促进机器人操作。该系统分析人类执行任务的视频，并创建包含可行性见解的可执行机器人程序。计算始于使用GPT-4V分析视频，将环境和行动细节转换为文本，然后是GPT-4增强的任务规划器。在接下来的分析中，视觉系统使用任务计划重新分析视频。开放词汇对象检测器用于将对象名称接地，而手-物体关系的关注有助于检测抓取和释放的时刻。这种时空接地使视觉系统进一步收集可行性数据（例如，抓取类型，航点和身体姿势）。在各种情况下的实验表明，这种方法在零-shot方式下从人类演示中实现真实机器人的操作的有效性。GPT-4V / GPT-4的提示可在此项目页面上获得：https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/。
图表
解决问题

如何通过人类行为观察来促进机器人操作？
关键思路

使用GPT-4V和GPT-4来分析视频，将环境和行动细节转换成文本，然后使用GPT-4增强的任务规划器创建可执行的机器人程序，从而实现从人类演示中实现真实机器人的操作。
其它亮点

该方法在各种场景下的实验中证明了其在零样本方式下从人类演示中实现真实机器人操作的有效性。此外，GPT-4V/GPT-4的提示可以在项目页面上找到，并且开源代码也可用。
相关研究

最近的相关研究包括使用深度学习技术来实现机器人操作的研究，如DeepMimic和RoboNet，以及使用自然语言处理技术来实现任务规划的研究，如GPT-3和GPT-4。

GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

评论