WOD-E2E: Waymo Open Dataset for End-to-End Driving in Challenging Long-tail Scenarios

向作者提问

NEW

简介

基于视觉的端到端（E2E）驾驶因其可扩展性以及与多模态大语言模型（MLLMs）的协同潜力，在研究领域引起了广泛关注。然而，当前的端到端驾驶基准数据集主要包含常规场景，难以充分检验这些系统的真正能力。此外，现有的开环评估指标往往无法准确捕捉驾驶行为的多模态特性，或在长尾场景中的性能评估上表现不足。为弥补这些不足，我们推出了面向端到端驾驶的Waymo开放数据集（WOD-E2E）。WOD-E2E包含4,021段驾驶片段（约12小时），专门针对日常生活中罕见、发生频率低于0.03%的挑战性长尾场景进行精心筛选。具体而言，每一段数据均包含高层级路线信息、自车状态以及来自8个环绕摄像头的360度相机视图。为了在这些长尾情境下有效评估端到端驾驶系统的性能，我们提出了一种全新的开环评估指标：评分员反馈得分（Rater Feedback Score, RFS）。与传统指标通过衡量预测轨迹点与日志轨迹之间距离不同，RFS衡量的是预测轨迹与由评分员标注的轨迹偏好标签之间的匹配程度。我们已公开了WOD-E2E验证集中所有片段的评分员偏好标签，而保留的测试集标签则用于2025年WOD-E2E挑战赛。通过本项工作，我们旨在推动能够应对复杂真实世界场景的、具备泛化能力、鲁棒性和安全性的先进端到端自动驾驶智能体的研究发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前端到端（E2E）自动驾驶系统的研究受限于主流基准数据集仅包含常见驾驶场景，缺乏对罕见但关键的长尾场景的充分覆盖，导致模型在真实复杂环境中的鲁棒性与安全性难以评估。此外，传统开环评估指标（如轨迹距离误差）无法有效衡量多模态驾驶意图或反映人类偏好，尤其在复杂交互场景下表现不足。该问题虽逐渐受到关注，但系统性构建高质量长尾场景数据集并设计更贴近实际安全需求的评估方式仍属新颖且亟需解决的方向。
关键思路

提出Waymo Open Dataset for End-to-End Driving (WOD-E2E)，一个专为挑战性长尾驾驶场景设计的大规模视觉E2E驾驶数据集，并引入基于人类评分员偏好的新型开环评估指标Rater Feedback Score (RFS)。核心创新在于将评估从‘与历史轨迹的几何对齐’转向‘与人类判断的行为合理性对齐’，从而更好地捕捉复杂情境下的决策质量。
其它亮点

WOD-E2E包含约4,021个驾驶片段（约12小时），每个片段涵盖高精路由信息、自车状态和8路360度摄像头视频，所有片段均经过筛选以确保属于发生频率低于0.03%的长尾场景；发布验证集上的评分员偏好标签用于RFS计算，测试集标签用于2025年WOD-E2E挑战赛；实验设计强调真实世界复杂性，支持多模态输入与语言模型融合；数据集已公开，推动社区研究；未来可深入探索基于偏好学习的训练方法、RFS指标的闭环相关性以及跨模态提示驱动的决策生成。
相关研究

1. DriveLM: Large Language Models as Agents for Autonomous Driving (2023) 2. TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving (2022) 3. VAD: Vectorized Autonomous Driving (2023) 4. nuScenes: A multimodal dataset for autonomous driving (2020) 5. Argoverse 2: 3D Tracking and Forecasting Challenge (2021) 6. How Would I Drive? Global Trajectory Prediction with Large-Scale Driving Knowledge (2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问