- 简介学习世界模型可以以无监督的方式教授智能体如何理解世界运作。尽管它可以被视为序列建模的一种特殊情况,但在像自动驾驶这样的机器人应用中,扩展世界模型的进展比使用生成式预训练变压器(GPT)扩展语言模型的进展要慢一些。我们确定了两个主要瓶颈:处理复杂和非结构化的观测空间,以及具有可扩展的生成模型。因此,我们提出了一种新颖的世界建模方法,首先使用VQVAE对传感器观测进行标记化,然后通过离散扩散预测未来。为了有效地并行解码和去噪标记,我们将遮蔽式生成式图像变换器重新构建为离散扩散框架,并进行了一些简单的更改,从而实现了显着的改进。当应用于点云观测的世界模型学习时,我们的模型将先前的SOTA Chamfer距离在1秒预测时降低了超过65%,在3秒预测时降低了超过50%,跨越了NuScenes,KITTI Odometry和Argoverse2数据集。我们的结果表明,对标记化的智能体经验进行离散扩散可以释放类似GPT的无监督学习的能力,以用于机器人智能体。
- 图表
- 解决问题本论文试图解决机器人应用中的世界建模问题,包括处理复杂和非结构化的观测空间以及构建可扩展的生成模型。同时,该论文还试图验证离散扩散在令牌化观测数据上的有效性。
- 关键思路该论文提出了一种新的世界建模方法,首先使用VQVAE对传感器观测进行标记化,然后通过离散扩散预测未来。同时,该论文还将Masked Generative Image Transformer转化为离散扩散框架,以有效地并行解码和去噪令牌。相比当前领域的研究状况,该论文的思路具有创新性。
- 其它亮点论文使用NuScenes、KITTI Odometry和Argoverse2数据集进行实验,证明了该方法在点云观测上的优越性,其Chamfer距离比之前的最优结果分别降低了65%和50%。论文还开源了代码,方便其他研究者进行复现和进一步研究。
- 在近期的相关研究中,也有一些关于机器人世界建模的工作。例如,论文《Learning to Explore using Active Neural SLAM》提出了一种基于神经网络的主动SLAM方法,用于在未知环境中进行导航和探索。另外,论文《Unsupervised Learning of Object Keypoints for Perception and Control》也探讨了如何在无监督情况下学习物体关键点以进行感知和控制。
沙发等你来抢
去评论
评论
沙发等你来抢