GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot

简介

多任务机器人学习在解决各种复杂场景方面具有重要意义。然而，目前的方法受到性能问题和收集训练数据集的困难的限制。本文提出了GeRM（通用机器人模型）。我们利用离线强化学习来优化数据利用策略，从演示和次优数据中学习，从而超越人类演示的限制。然后，我们采用基于Transformer的VLA网络来处理多模态输入并输出动作。通过引入专家混合结构，GeRM允许更快的推理速度和更高的整体模型容量，从而解决了RL参数有限的问题，提高了多任务学习的模型性能，同时控制了计算成本。通过一系列实验，我们证明GeRM在所有任务中优于其他方法，同时验证了它在训练和推理过程中的效率。此外，我们揭示了它获得新技能的潜力。此外，我们提供了QUARD-Auto数据集，自动收集以支持我们的训练方法，并促进多任务四足机器人学习的进展。这项工作提出了一种减少收集机器人数据成本的新范式，并推动了多任务学习社区的进步。您可以通过链接https://songwxuan.github.io/GeRM/访问我们的项目和视频。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文旨在解决多任务机器人学习中的数据收集和性能问题，提出了一种新的模型GeRM。
关键思路

GeRM利用离线强化学习优化数据利用策略，从演示和次优数据中学习，然后使用基于Transformer的VLA网络处理多模态输入和输出动作，并引入Mixture-of-Experts结构以提高整体模型容量和加快推理速度。
其它亮点

GeRM在所有任务中均优于其他方法，同时在训练和推理过程中也验证了其效率。此外，GeRM还具有获取新技能的潜力，并贡献了QUARD-Auto数据集以支持其训练方法。
相关研究

相关研究包括：《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》、《Multi-Task Learning Using Task-Specific Dropout》、《Multi-Task Learning with Deep Neural Networks for Video Captioning》等。

GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot

提问交流

提问交流