活动报名：复杂环境下控制机器人，揭秘GPT-4V在视觉和语言规划中的强大力量

报告主题：揭秘GPT-4V在机器人视觉-语言规划中的强大力量

报告日期：12月22日（周五）11:00-12:00

主题简介：

ViLa 全称是 Robotic Vision-Language Planning，它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力，把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解，而这是很多之前基于大语言模型（LLM）的机器人任务规划算法所欠缺的。

在此次演讲中，我们将分享如何赋予机器人根据物理世界做任务规划的能力。最近的很多研究表明，大型语言模型（LLMs）具有对机器人任务非常有用的知识，尤其是在推理和规划方面。然而，LLMs缺乏物理世界的grounding，同时LLMs也依赖于外部affordance模型来感知环境信息，并且这些affordance模型不能与LLMs共同进行推理。

我们认为，任务规划器应该是一个统一的多模态系统。为此，我们介绍了机器人视觉-语言规划算法（ViLa），这是一种新颖的长程机器人规划方法，它利用视觉-语言模型（VLMs）生成一系列可操作的步骤。ViLa直接将感知数据整合到其推理和规划过程中，使其能够深刻理解视觉世界中的常识知识，包括空间布局和对象属性。

它还支持灵活的多模态目标定义，并自然地结合视觉反馈。我们在真实机器人和模拟环境中进行的广泛评估表明，ViLa相比现在基于LLM的任务规划算法具有明显的优势，并在众多的开放世界操纵任务中取得很好的表现。

论文地址：https://arxiv.org/pdf/2311.17842.pdf

论文主页：https://robot-vila.github.io/

论文视频：https://www.youtube.com/watch?v=t8pPZ46xtuc

报告嘉宾：

胡英东，清华大学交叉信息研究院三年级博士生，导师为高阳教授。在此之前，他在北京邮电大学获得智能科学与技术学士学位。他的研究兴趣主要包括计算机视觉，强化学习，具身智能和机器人学习。目前专注于利用基础模型中的先验知识，构建能在开放世界泛化的通用机器人。他在ECCV，ICML，CoRL等多个机器学习和机器人会议上发表论文，担任ICLR，CVPR等国际学术会议审稿人。

林凡淇，清华大学计算机系大四本科生，未来将在清华大学交叉信息研究院高阳教授组攻读博士学位。他的研究兴趣主要包括具身人工智能和机器人。他专注于将大模型的先验知识融合到机器人任务中，帮助机器人完成日常生活中的复杂任务；同时他希望利用已有的机器人算法、视觉语言大模型，探索机器人落地的可能性。

扫描下方二维码

或点击「阅读原文」报名

内容中包含的图片若涉及版权问题，请及时与我们联系删除

活动报名：复杂环境下控制机器人，揭秘GPT-4V在视觉和语言规划中的强大力量

评论列表

评论