Multimodal foundation world models for generalist embodied agents

2024年06月26日
  • 简介
    学习通用的具身代理,能够在不同领域解决多样化的任务是一个长期存在的问题。强化学习(RL)很难扩展,因为它需要为每个任务设计复杂的奖励。相比之下,语言可以更自然地指定任务。当前的基础视觉语言模型(VLMs)通常需要微调或其他适应性才能正常工作,因为存在显著的领域差距。然而,在这些领域缺乏多模态数据是开发具身应用的基础模型的障碍。在这项工作中,我们通过提出多模态基础世界模型来克服这些问题,能够将基础VLMs的表示与RL的生成世界模型的潜在空间连接和对齐,而不需要任何语言标注。由此产生的代理学习框架GenRL允许通过视觉和/或语言提示指定任务,将其基于具身领域的动态,学习相应的想象行为。通过大规模多任务基准测试评估,GenRL在几个运动和操作领域展现出强大的多任务泛化性能。此外,通过引入一种无数据RL策略,为通用的具身代理的基础模型RL奠定了基础。
  • 图表
  • 解决问题
    本文旨在解决通用多任务智能体的学习问题,通过将基础视觉语言模型与生成世界模型的潜在空间连接和对齐,实现对多种运动和操作领域的多任务学习。
  • 关键思路
    通过构建多模态基础世界模型,将基础视觉语言模型与生成世界模型的潜在空间连接和对齐,实现多任务学习。
  • 其它亮点
    论文提出了GenRL框架,可以通过视觉和/或语言提示指定任务、在想象中将其落地到具体领域的动态环境中,并学习相应的行为。在大规模的多任务基准测试中,GenRL表现出强大的多任务泛化性能。同时,论文还引入了一种无需数据的强化学习策略,为通用多任务智能体的基础模型强化学习打下基础。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks》、《EmbodiedQA: Bridging the Gap Between Vision and Language Navigation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论