报告主题:揭秘GPT-4V在机器人视觉-语言规划中的强大力量
主题简介:
ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解,而这是很多之前基于大语言模型(LLM)的机器人任务规划算法所欠缺的。
在此次演讲中,我们将分享如何赋予机器人根据物理世界做任务规划的能力。最近的很多研究表明,大型语言模型(LLMs)具有对机器人任务非常有用的知识,尤其是在推理和规划方面。然而,LLMs缺乏物理世界的grounding,同时LLMs也依赖于外部affordance模型来感知环境信息,并且这些affordance模型不能与LLMs共同进行推理。
论文地址:https://arxiv.org/pdf/2311.17842.pdf
论文主页:https://robot-vila.github.io/
论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc
胡英东,清华大学交叉信息研究院三年级博士生,导师为高阳教授。在此之前,他在北京邮电大学获得智能科学与技术学士学位。他的研究兴趣主要包括计算机视觉,强化学习,具身智能和机器人学习。目前专注于利用基础模型中的先验知识,构建能在开放世界泛化的通用机器人。他在ECCV,ICML,CoRL等多个机器学习和机器人会议上发表论文,担任ICLR,CVPR等国际学术会议审稿人。
林凡淇,清华大学计算机系大四本科生,未来将在清华大学交叉信息研究院高阳教授组攻读博士学位。他的研究兴趣主要包括具身人工智能和机器人。他专注于将大模型的先验知识融合到机器人任务中,帮助机器人完成日常生活中的复杂任务;同时他希望利用已有的机器人算法、视觉语言大模型,探索机器人落地的可能性。
扫描下方二维码
或点击「阅读原文」报名
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢