A Survey on Vision-Language-Action Models for Embodied AI

2024年05月23日
  • 简介
    深度学习在许多领域取得了显著的成功,包括计算机视觉、自然语言处理和强化学习。这些领域中代表性的人工神经网络包括卷积神经网络、Transformer和深度Q网络。在单模态神经网络的基础上,许多多模态模型被引入来解决各种任务,例如视觉问答、图像字幕和语音识别。在具有体现智能的AI中,遵循指令的机器人策略的兴起推动了一种新型的多模态模型的发展,称为视觉语言动作模型(VLAs)。它们的多模态能力已成为机器人学习的基本元素。已经提出了各种方法来增强多模态模型的特征,如多样性、灵巧性和泛化能力。一些模型专注于通过预训练来优化特定的组件,而其他模型旨在开发能够预测低级动作的控制策略。某些VLAs作为高层任务规划器,能够将长期任务分解为可执行的子任务。在过去的几年中,大量的VLAs涌现出来,反映了体现智能的AI的快速发展。因此,通过全面的调查来捕捉不断发展的景观是至关重要的。
  • 图表
  • 解决问题
    综述Vision-Language-Action模型在机器人学习中的发展和应用
  • 关键思路
    Vision-Language-Action模型在机器人学习中的应用具有广泛的应用前景,可以解决机器人在现实世界中面临的多模态、长时序、不确定性等问题,目前已经有多种VLAs被提出,可以用于高层任务规划、低层动作控制等方面。
  • 其它亮点
    论文对VLAs的发展、应用、优缺点等进行了全面的综述,介绍了多种VLAs的具体实现方法和应用场景,并对未来的发展方向进行了展望。
  • 相关研究
    相关研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《EmbodiedQA: Bridging the Gap Between Image and Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论