- 简介本文介绍了一种名为“DriveWorld”的基于世界模型的自主驾驶4D表示学习框架,能够从多摄像头驾驶视频中进行时空训练。为了提取通用表示,预训练对于视觉中心的自主驾驶至关重要。然而,目前的视觉中心预训练通常依赖于2D或3D预文本任务,忽略了作为4D场景理解任务的自主驾驶的时间特征。具体而言,我们提出了一个记忆状态空间模型进行时空建模,包括动态记忆库模块和静态场景传播模块,分别用于学习时间感知潜在动态和空间感知潜在静态,以提供全面的场景上下文。此外,我们还引入了任务提示来解耦各种下游任务的任务感知特征。实验表明,DriveWorld在各种自主驾驶任务上都取得了有希望的结果。当使用OpenScene数据集进行预训练时,DriveWorld在3D物体检测方面的mAP提高了7.5%,在线地图制作方面的IoU提高了3.0%,多目标跟踪方面的AMOTA提高了5.0%,运动预测方面的minADE降低了0.1m,占用预测方面的IoU提高了3.0%,规划方面的平均L2误差降低了0.34m。
- 图表
- 解决问题本文旨在解决自动驾驶中视觉预训练通常依赖于2D或3D预文本任务,忽略了自动驾驶作为4D场景理解任务的时间特征的问题。作者提出了一种基于世界模型的自动驾驶4D表示学习框架,名为DriveWorld,可以从多摄像头驾驶视频中进行时空训练。
- 关键思路本文提出了一个记忆状态空间模型,由动态记忆库模块和静态场景传播模块组成。动态记忆库模块用于学习时态感知的潜在动态,以预测未来变化;静态场景传播模块用于学习空间感知的潜在静态,以提供全面的场景上下文。此外,还引入了任务提示来为各种下游任务解耦任务感知特征。
- 其它亮点实验结果表明,DriveWorld在各种自动驾驶任务上都表现出色。当使用OpenScene数据集进行预训练时,DriveWorld在3D目标检测方面的mAP增加了7.5%,在线映射的IoU增加了3.0%,多目标跟踪的AMOTA增加了5.0%,运动预测的minADE减少了0.1m,占用预测的IoU增加了3.0%,规划的平均L2误差减少了0.34m。
- 最近在这个领域中的相关研究包括:《End-to-End Learning of Driving Models from Large-Scale Video Datasets》、《Learning to Drive from Simulation without Real World Labels》、《Learning a Driving Simulator》等。
沙发等你来抢
去评论
评论
沙发等你来抢