- 简介准确的动作推理对于基于视觉的机器人操作至关重要。现有的方法通常遵循两种范式之一:一种是“视觉到动作”(Vision-to-Action,V-A),即直接从视觉输入中预测动作;另一种是“视觉到三维再到动作”(Vision-to-3D-to-Action,V-3D-A),即通过中间的三维表示来推导动作。然而,由于操作场景的复杂性和动态性,这些方法往往存在动作预测不准确的问题。本文提出了一种“视觉到四维再到动作”(Vision-to-4D-to-Action,V-4D-A)框架,该框架通过高斯动作场(Gaussian Action Field,GAF),实现了从具有运动感知能力的4D表示中直接进行动作推理。GAF在3D高斯点阵(3D Gaussian Splatting,3DGS)的基础上引入了可学习的运动属性,从而能够同时建模动态场景与操作动作。为了学习随时间变化的场景几何结构以及与动作相关的机器人运动,GAF支持三种关键查询类型:当前场景的重建、未来帧的预测,以及通过机器人运动估计初始动作。此外,GAF生成的高质量当前帧和未来帧还能通过GAF引导的扩散模型进一步优化操作动作。大量实验表明,GAF在重建质量和任务成功率方面均有显著提升,其PSNR提升了+11.5385 dB,LPIPS降低了-0.5574,并且在机器人操作任务中的平均成功率比现有最先进方法提高了10.33%。项目主页:http://chaiying1.github.io/GAF.github.io/project_page/
-
- 图表
- 解决问题论文旨在解决视觉驱动的机器人操作中动作推理不准确的问题。由于操作场景复杂且动态变化,现有的方法(如Vision-to-Action和Vision-to-3D-to-Action)在动作预测上面临挑战。这是一个在机器人视觉与动作规划交叉领域中的重要且较新的问题。
- 关键思路论文提出了一种新的Vision-to-4D-to-Action框架——Gaussian Action Field (GAF),该框架通过引入具有可学习运动属性的4D表示来建模动态场景和操作动作。相比传统方法,GAF不仅建模3D空间结构,还显式建模时间维度上的运动信息,从而实现更精确的动作推理。
- 其它亮点1. GAF支持三种关键查询类型:当前场景重建、未来帧预测、基于机器人运动的动作估计 2. 结合GAF引导的扩散模型进行动作优化,提升动作执行成功率 3. 实验结果显示PSNR提升11.5385 dB,LPIPS下降0.5574,平均任务成功率提高10.33% 4. 项目页面已公开,可能包含代码或数据集开放信息
- 1. NeRF-based scene representations for robotic manipulation 2. 3D Gaussian Splatting for real-time novel view synthesis 3. Diffusion models for robotic action generation 4. Vision-Language-Action Learning (VLAL) frameworks 5. Dynamic scene modeling with temporal NeRF variants
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流