GameVLM: A Decision-making Framework for Robotic Task Planning Based on Visual Language Models and Zero-sum Games

简介

由于其出色的场景理解和推理能力，预训练的视觉语言模型（VLMs）例如GPT-4V在机器人任务规划中越来越受到关注。与传统的任务规划策略相比，VLMs在多模态信息解析和代码生成方面具有强大的能力，并显示出卓越的效率。尽管VLMs在机器人任务规划方面表现出巨大的潜力，但它们面临着幻觉、语义复杂性和有限的上下文等挑战。为了解决这些问题，本文提出了一个多智能体框架，即GameVLM，以增强机器人任务规划中的决策过程。本研究提出了基于VLM的决策和专家智能体来进行任务规划。具体而言，使用决策智能体来规划任务，并使用专家智能体来评估这些任务计划。零和博弈理论被引入来解决不同智能体之间的不一致性并确定最佳解决方案。在真实机器人上的实验结果表明了所提出框架的有效性，平均成功率达到83.3%。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

提出了一个名为GameVLM的多智能体框架，用于增强机器人任务规划中的决策过程，以解决VLMs在任务规划中遇到的幻觉、语义复杂性和有限上下文等问题。
关键思路

使用基于VLM的决策和专家代理来进行任务规划，引入零和博弈理论来解决不同代理之间的不一致性并确定最优解决方案。
其它亮点

实验结果表明，GameVLM框架的平均成功率为83.3％，具有很高的效能。该论文的亮点包括使用VLMs进行任务规划、引入多智能体框架和零和博弈理论等。
相关研究

相关研究包括使用VLMs进行任务规划的其他工作，如GPT-4V，以及其他多智能体框架和博弈理论的应用研究。

GameVLM: A Decision-making Framework for Robotic Task Planning Based on Visual Language Models and Zero-sum Games

提问交流

提问交流