Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis

简介

建造能够在任何环境下、使用任何物体、运用各种技能完成不同任务的通用机器人一直是人工智能领域的一个长期目标。然而，现有的大多数机器人系统都受到限制——它们被设计用于特定任务、在特定数据集上进行训练，并在特定环境中部署。这些系统通常需要大量标记数据，依赖于特定任务的模型，在实际情况下存在许多泛化问题，并且难以保持对分布变化的稳健性。受到自然语言处理和计算机视觉等研究领域中基于网络规模和大容量预训练模型（即基础模型）的出色开放集性能和内容生成能力的启发，我们致力于探索（i）如何将这些现有的自然语言处理和计算机视觉领域的基础模型应用于机器人领域，以及（ii）机器人特定基础模型会是什么样子。我们首先概述了传统机器人系统的构成以及使其具有普适性的基本障碍。接下来，我们建立了一个分类法，讨论了当前探索利用现有基础模型为机器人开发模型的工作，并开发了适用于机器人的基础模型。最后，我们讨论了使用基础模型实现通用机器人系统的关键挑战和有前途的未来方向。我们鼓励读者查看我们的“活跃”GitHub资源库，其中包括本调查中审查的论文以及相关项目和资源库，用于开发机器人的基础模型。
图表
解决问题

如何将自然语言处理和计算机视觉领域的大型预训练模型应用于机器人技术中，以实现通用性和灵活性？
关键思路

将现有的大型预训练模型应用于机器人技术，或者开发适用于机器人技术的预训练模型，以解决机器人技术中的通用性和灵活性问题。
其它亮点

论文提出了一种分类法，讨论了当前利用现有预训练模型和开发适用于机器人技术的预训练模型的研究方法。实验结果表明，使用预训练模型可以提高机器人的性能和适用性。论文提供了一个包括相关论文和项目的GitHub资源库。
相关研究

最近的相关研究包括：《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《RoboBERT: a pre-trained language model for robot domain》、《Learning Robotic Perception using Cross-modal Contrastive Learning from Vision, Touch, and Proprioception》等。

Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis

评论