- 简介未来在真实世界环境中运行的机器人系统,需要具备无需持续连接云端的在体智能(embodied intelligence),同时要在计算能力和内存限制下平衡各项能力。本研究提出了对 R1-zero 方法的扩展,使其能够将低参数量的大语言模型(LLMs)应用于机器人领域。R1-zero 方法最初是为了使大语言模型能够在静态数据集上进行数学推理而开发的。我们通过将其整合到闭环强化学习(Reinforcement Learning, RL)框架中,将其扩展到机器人领域。这一扩展增强了在体人工智能(Embodied AI)场景中的推理能力,而不仅仅依赖于通过监督微调(Supervised Fine-Tuning, SFT)对大规模模型的蒸馏。我们证明了小型 LLMs 可以通过与环境的闭环交互进行学习,从而实现有效的推理性能,完成过去需要更大规模模型才能完成的任务。在自动驾驶场景中,使用 Qwen2.5-1.5B 模型相较于基于 SFT 的基线方法,性能提升了 20.2 个百分点。通过所提出的训练流程,Qwen2.5-3B 达到了 63.3% 的控制适应性评分,超过了云绑定的更大规模模型 GPT-4o 所达到的 58.5%。这些结果表明,小型 LLMs 的实际机载部署不仅可行,而且如果通过环境反馈进行训练,其性能可以超越更大规模的模型。这突显了交互式学习框架对于机器人在体人工智能的重要性,强调了基于实践经验而非静态监督的学习方式的价值。
- 图表
- 解决问题该论文试图解决如何在计算和内存受限的机器人系统中实现高效的嵌入式智能问题,特别是在无需连续云连接的情况下,利用低参数量的大语言模型(LLMs)完成复杂任务。这是一个具有实际应用价值的问题,尤其是在需要实时决策的场景中。
- 关键思路论文的关键思路是将R1-zero方法扩展到机器人领域,通过结合闭环强化学习(RL)框架来训练小型LLMs,使其能够通过与环境的交互提升推理能力,而不仅仅依赖于监督微调(SFT)。这种方法强调了通过实践反馈进行学习的重要性,并展示了小型模型在特定任务上的潜力可以超越大型模型。
- 其它亮点实验设计包括自动驾驶场景下的性能测试,其中Qwen2.5-1.5B模型相较于SFT基线提升了20.2%的性能,而Qwen2.5-3B模型在控制适应性评分上超过了更大的GPT-4o模型。论文使用了真实世界的数据集进行验证,但未明确提及代码是否开源。未来值得深入研究的方向包括进一步优化闭环RL框架以及探索更多实际应用场景。
- 近期相关研究包括:1) 使用蒸馏技术压缩大型语言模型以适应边缘设备的研究;2) 针对嵌入式AI的轻量化模型设计,例如MobileBERT等;3) 强化学习在机器人控制中的应用,如'Learning to Walk via Deep Reinforcement Learning';4) 结合大语言模型进行物理模拟预测的工作,如'Large Language Models for Physical Reasoning'。
沙发等你来抢
去评论
评论
沙发等你来抢