MoST: Multi-modality Scene Tokenization for Motion Prediction

向作者提问

NEW

简介

许多现有的动作预测方法依赖于符号感知输出来生成代理轨迹，如边界框、道路图信息和交通信号灯。这种符号表示是对真实世界的高级抽象，可能会使运动预测模型容易受到感知误差的影响（例如，未能检测到开放词汇障碍物）同时缺少场景上下文中的重要信息（例如，道路状况不佳）。另一种选择是从原始传感器中进行端到端的学习。然而，这种方法缺乏可解释性，并且需要更多的训练资源。在这项工作中，我们提出将视觉世界分解成一组紧凑的场景元素，然后利用预训练的图像基础模型和LiDAR神经网络以开放词汇方式编码所有的场景元素。图像基础模型使我们的场景令牌能够编码开放世界的通用知识，而LiDAR神经网络则编码几何信息。我们提出的表示方法可以有效地编码多帧多模态观测，只需几百个令牌，并且与大多数基于Transformer的架构兼容。为了评估我们的方法，我们使用摄像头嵌入式增强了Waymo Open Motion数据集。在Waymo Open Motion数据集上的实验表明，我们的方法比现有技术有显著的性能提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决基于符号感知输出的运动预测方法的问题，该方法容易受到感知误差的影响，同时缺乏场景上下文的关键信息。因此，论文提出了一种基于场景元素令牌化的方法，通过预训练的图像基础模型和LiDAR神经网络对场景元素进行编码，从而有效地编码多帧多模态观测。
关键思路

论文的关键思路是将视觉世界令牌化为一组紧凑的场景元素，并利用预训练的图像基础模型和LiDAR神经网络以开放词汇的方式对所有场景元素进行编码。这种表示方法可以有效地编码多帧多模态观测，且与大多数基于Transformer的架构兼容。
其它亮点

论文使用Waymo Open Motion数据集进行实验，证明了所提出方法相对于现有方法的显著性能提升。此外，论文还使用了预训练的图像基础模型和LiDAR神经网络对场景元素进行编码，从而使得该方法可以编码多帧多模态观测，且仅需使用少量令牌。
相关研究

最近在这个领域中，一些相关的研究包括：1. End-to-End Learning for Autonomous Driving Using Raw Sensor Data；2. Learning Multi-Modal Representations for Autonomous Driving；3. Motion Prediction for Autonomous Driving with a Conditional Variational Autoencoder。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问