GAF: Gaussian Action Field as a Dynamic World Model for Robotic Manipulation

向作者提问

NEW

简介

准确的动作推理对于基于视觉的机器人操作至关重要。现有的方法通常遵循两种范式之一：一种是“视觉到动作”（Vision-to-Action，V-A），即直接从视觉输入中预测动作；另一种是“视觉到三维再到动作”（Vision-to-3D-to-Action，V-3D-A），即通过中间的三维表示来推导动作。然而，由于操作场景的复杂性和动态性，这些方法往往存在动作预测不准确的问题。本文提出了一种“视觉到四维再到动作”（Vision-to-4D-to-Action，V-4D-A）框架，该框架通过高斯动作场（Gaussian Action Field，GAF），实现了从具有运动感知能力的4D表示中直接进行动作推理。GAF在3D高斯点阵（3D Gaussian Splatting，3DGS）的基础上引入了可学习的运动属性，从而能够同时建模动态场景与操作动作。为了学习随时间变化的场景几何结构以及与动作相关的机器人运动，GAF支持三种关键查询类型：当前场景的重建、未来帧的预测，以及通过机器人运动估计初始动作。此外，GAF生成的高质量当前帧和未来帧还能通过GAF引导的扩散模型进一步优化操作动作。大量实验表明，GAF在重建质量和任务成功率方面均有显著提升，其PSNR提升了+11.5385 dB，LPIPS降低了-0.5574，并且在机器人操作任务中的平均成功率比现有最先进方法提高了10.33%。项目主页：http://chaiying1.github.io/GAF.github.io/project_page/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视觉驱动的机器人操作中动作推理不准确的问题。由于操作场景复杂且动态变化，现有的方法（如Vision-to-Action和Vision-to-3D-to-Action）在动作预测上面临挑战。这是一个在机器人视觉与动作规划交叉领域中的重要且较新的问题。
关键思路

论文提出了一种新的Vision-to-4D-to-Action框架——Gaussian Action Field (GAF)，该框架通过引入具有可学习运动属性的4D表示来建模动态场景和操作动作。相比传统方法，GAF不仅建模3D空间结构，还显式建模时间维度上的运动信息，从而实现更精确的动作推理。
其它亮点

1. GAF支持三种关键查询类型：当前场景重建、未来帧预测、基于机器人运动的动作估计 2. 结合GAF引导的扩散模型进行动作优化，提升动作执行成功率 3. 实验结果显示PSNR提升11.5385 dB，LPIPS下降0.5574，平均任务成功率提高10.33% 4. 项目页面已公开，可能包含代码或数据集开放信息
相关研究

1. NeRF-based scene representations for robotic manipulation 2. 3D Gaussian Splatting for real-time novel view synthesis 3. Diffusion models for robotic action generation 4. Vision-Language-Action Learning (VLAL) frameworks 5. Dynamic scene modeling with temporal NeRF variants

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问