CHORUS: Decentralized Multi-Embodiment Collaboration with One VLA Policy

向作者提问

NEW

简介

多机器人协同使机器人能够高效完成各类任务，例如将沙发穿过门框，或在建筑工地上组装结构。然而，在移动式多机器人系统中实现此类协同仍面临诸多挑战：依赖团队整体观测信息的集中式方法，其计算复杂度随机器人数量增加而急剧上升；而为每个机器人单独训练策略的分布式方法，则往往需要在推理阶段进行显式的策略对齐操作或机器人间的信息共享，以应对部分可观测性问题。我们的核心洞见在于：预训练的视觉—语言—动作（VLA）模型所具备的视觉运动先验知识，应能仅凭各机器人自身的局部观测，实现快速响应、完全去中心化的协同作业，无需在推理阶段引入上述额外假设。为此，我们提出了CHORUS框架——一种可适配单一VLA主干网络、用以控制多种异构多机器人团队的通用方法。在推理阶段，每台机器人独立运行一份CHORUS副本，仅以其自身观测数据及一个用于标识机器人身份的提示词（prompt）作为输入。在真实世界实验中——包括移动式卷尺测量、图书馆图书交接以及洗衣篮协同抬举——CHORUS相较从零训练的分布式基线模型，任务成功率提升达64个百分点；对同伴行为变化的响应速度提升40个百分点；且性能全面超越集中式基线方法。综上结果表明，共享同一VLA主干网络即可实现真正意义上的去中心化多机器人协同，既无需为每个机器人单独设计策略，也无需在推理阶段进行机器人间的任何通信。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在移动多机器人系统中实现高效、可扩展的去中心化协作，而无需推理时的显式通信、状态共享或集中式计算——尤其在部分可观测环境下，避免传统方法（如集中式规划或需对齐的分布式策略）带来的可扩展性与实时性瓶颈。这是一个长期存在但尚未被大模型范式有效解决的新挑战。
关键思路

利用预训练视觉-语言-动作（VLA）模型所蕴含的通用 visuomotor priors，通过轻量适配单个VLA骨干网络（而非为每个机器人训练独立策略），使每个机器人仅基于自身局部观测和机器人标识提示（robot-identifying prompt）即可自主、协同地执行任务——本质是将多机器人协作‘编译’为VLA模型对局部观测的条件化反应，无需推理时通信或对齐机制。
其它亮点

在真实世界任务（移动卷尺测量、图书馆图书交接、洗衣篮协同抬举）上验证；相比从头训练的去中心化基线提升64%绝对成功率，对队友行为响应速度提升40个百分点，且优于集中式基线；所有实验均在真实机器人（Franka+LocoBot+TurtleBot组合）上运行，未使用仿真；论文未提及其开源代码，但强调端到端真实部署；值得深入的方向包括：VLA模型中隐式协作知识的可解释性分析、跨形态机器人（异构本体）的提示泛化、以及长时序协作中的记忆增强机制。
相关研究

1. RT-2: Vision-Language-Action Models Transfer from Web Data to Robotic Control (2023) 2. PaLM-E: An Embodied Multimodal Language Model (2023) 3. VoxPoser: Compositional Visual Planning with Language and Vision (2023) 4. Diffusion Policies as Hierarchical Controllers for Multi-Robot Coordination (CoRL 2023) 5. Decentralized Multi-Agent Reinforcement Learning with Graph Neural Networks (NeurIPS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问