- 简介视觉-语言-动作模型(VLAs)在各种机器人任务中正变得越来越强大。然而,其在现实世界中的部署仍然缓慢且效率低下:演示视频通常会被加速5到10倍才能显得流畅,且常出现明显的动作停滞以及对环境变化反应延迟的问题。异步推理为实现连续、低延迟的控制提供了一种有前景的解决方案,它使机器人能够在执行动作的同时进行推理。然而,由于机器人和环境在推理过程中仍在持续变化,预测与执行之间便产生了时间上的错位,从而导致严重的动作不稳定。现有的方法要么会降低准确性,要么需要引入额外的运行时开销来缓解这一问题。我们提出了VLASH,这是一种面向VLAs的通用异步推理框架,能够在不增加额外开销或修改模型结构的前提下,实现流畅、准确且快速响应的控制。VLASH通过利用先前生成的动作片段向前推演机器人状态,估计未来执行时刻的状态,从而弥合了预测与执行之间的时间差距。实验表明,与传统的同步推理相比,VLASH最高可实现2.03倍的速度提升,并将反应延迟最多减少17.4倍,同时完全保持原始模型的准确性。此外,VLASH使VLAs能够胜任诸如打乒乓球和打地鼠这类需要快速反应和高精度控制的任务,而这些任务是传统同步推理无法完成的。代码已公开发布于 https://github.com/mit-han-lab/vlash
-
- 图表
- 解决问题Vision-Language-Action模型(VLAs)在实际部署中面临推理延迟和动作不连续的问题。由于传统同步推理机制需要等待每次推理完成才能执行动作,导致机器人控制出现卡顿、反应滞后,难以应对动态环境中的快速变化。尽管异步推理能提升响应速度,但会引入预测与执行之间的时间错位,造成动作不稳定。该问题在高精度、快反应任务中尤为突出,是一个尚未被有效解决的实际挑战。
- 关键思路提出VLASH框架,通过前滚(roll forward)机器人状态来估计动作执行期间的未来状态,从而弥合异步推理中预测与执行的时间差距。这一方法无需修改VLA架构或增加运行时开销,即可实现连续、低延迟且稳定准确的控制。其核心创新在于利用已生成的动作片段主动预测未来状态,使后续推理基于更匹配当前动态的上下文进行,显著提升了实时性与稳定性。
- 其它亮点实验表明,VLASH相比同步推理可实现最高2.03倍的速度提升,反应延迟减少达17.4倍,同时完全保持原始模型的准确性。它首次使VLA成功应用于如打乒乓球、打地鼠等需要快速反应和高精度协调的任务。实验设计覆盖多个真实机器人任务,验证了其在复杂动态场景下的鲁棒性。项目代码已开源:https://github.com/mit-han-lab/vlash,具备良好的可复现性和工程落地潜力。未来可探索其在多模态强化学习、闭环自适应推理中的扩展应用。
- 1. PaLM-E: An Embodied Multimodal Language Model 2. RT-2: Vision-Language-Action Models for Real-World Robot Control 3. OpenVLA: An Open-Source Vision-Language-Action Model for Robotic Manipulation 4. FIFO-RT: Latency-Aware Inference for Real-Time Vision-Based Control 5. Action Chunking in Embodied AI: Towards Continuous Control with Discrete Policies
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流