- 简介许多现有的动作预测方法依赖于符号感知输出来生成代理轨迹,如边界框、道路图信息和交通信号灯。这种符号表示是对真实世界的高级抽象,可能会使运动预测模型容易受到感知误差的影响(例如,未能检测到开放词汇障碍物)同时缺少场景上下文中的重要信息(例如,道路状况不佳)。另一种选择是从原始传感器中进行端到端的学习。然而,这种方法缺乏可解释性,并且需要更多的训练资源。在这项工作中,我们提出将视觉世界分解成一组紧凑的场景元素,然后利用预训练的图像基础模型和LiDAR神经网络以开放词汇方式编码所有的场景元素。图像基础模型使我们的场景令牌能够编码开放世界的通用知识,而LiDAR神经网络则编码几何信息。我们提出的表示方法可以有效地编码多帧多模态观测,只需几百个令牌,并且与大多数基于Transformer的架构兼容。为了评估我们的方法,我们使用摄像头嵌入式增强了Waymo Open Motion数据集。在Waymo Open Motion数据集上的实验表明,我们的方法比现有技术有显著的性能提升。
-
- 图表
- 解决问题论文旨在解决基于符号感知输出的运动预测方法的问题,该方法容易受到感知误差的影响,同时缺乏场景上下文的关键信息。因此,论文提出了一种基于场景元素令牌化的方法,通过预训练的图像基础模型和LiDAR神经网络对场景元素进行编码,从而有效地编码多帧多模态观测。
- 关键思路论文的关键思路是将视觉世界令牌化为一组紧凑的场景元素,并利用预训练的图像基础模型和LiDAR神经网络以开放词汇的方式对所有场景元素进行编码。这种表示方法可以有效地编码多帧多模态观测,且与大多数基于Transformer的架构兼容。
- 其它亮点论文使用Waymo Open Motion数据集进行实验,证明了所提出方法相对于现有方法的显著性能提升。此外,论文还使用了预训练的图像基础模型和LiDAR神经网络对场景元素进行编码,从而使得该方法可以编码多帧多模态观测,且仅需使用少量令牌。
- 最近在这个领域中,一些相关的研究包括:1. End-to-End Learning for Autonomous Driving Using Raw Sensor Data;2. Learning Multi-Modal Representations for Autonomous Driving;3. Motion Prediction for Autonomous Driving with a Conditional Variational Autoencoder。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流