1217日上午,第二十一期AIR-SUN少年科学家论坛如期举行。本次活动有幸邀请到中国科学院自动化所博士生田浩辰,为AIR的老师和同学做了题为《SimScale大规模真实世界仿真重塑端到端自动驾驶学习范式》的精彩报告。

一、讲者介绍

田浩辰是中科院自动化所在读博士生,师从谭铁牛院士,OpenDriveLab和小米具身团队实习生。他在ICLRICML等计算机视觉与人工智能顶会发表过多篇论文,研究方向为端到端具身智能系统、多模态大模型。

二、 报告内容

在本次报告中,田浩辰指出真实架势数据中存在安全关键和长尾场景不足的问题,详细讲解了他们团队提出的一种可规模化的仿真数据生成框架SimScale。该方法基于已有真实驾驶数据,通过神经渲染和可交互环境,在对自车轨迹进行扰动的同时生成高保真多视角观测,并进一步利用伪专家策略为这些新状态提供可行的动作监督。研究团队使用真实数据和仿真数据联合训练的方式,使得多种规划模型在真实世界基准上显著提升了鲁棒性与泛化能力,在navhardnavtest上分别取得最高 +6.8  +2.9 的性能提升。实验还表明,该性能提升可仅通过增加仿真数据规模持续获得,而无需额外真实数据,验证了仿真——真实协同训练的可扩展性.

背景与动机

深度学习已经在多个领域呈现出“数据规模越大、性能越稳步提升”的规律,而端到端自动驾驶规划同样希望依赖大规模驾驶数据从原始观测直接学习决策,当前解决方案面临两个核心瓶颈:

1)真实世界的人类专家驾驶数据在安全关键与分布外(OOD)状态显著不足,导致模型受限于人类驾驶分布、部署时易发生分布偏移与泛化失败,使得单纯扩充真实数据变得低效;

2)神经渲染驱动的仿真可在闭环规划中规模生成偏离专家轨迹的高保真OOD状态,但现有仿真方法在有效生成此类示范以及仿真数据随规模增长的收益规律方面仍缺乏成熟方案与系统分析。

因此,作者提出SimScale,从有限真实日志出发,通过轨迹扰动合成未见状态、构造伪专家轨迹并在可交互的反应式环境中渲染多视角观测,再与真实数据进行协同训练,以系统化方式提升端到端规划的鲁棒性与泛化,并研究其可预测的“仿真数据scaling”效应。

伪专家仿真场景管线

该部分的任务定义是给定真实驾驶日志片段、历史窗口和规划时域,目标是从有限真实场景中构造覆盖OOD状态且带可行监督的仿真样本集.

研究团队首先基于3DGS构建了可控渲染的数据引擎,使其可在指定ego/他车状态与相机参数条件下渲染多视角RGB观测,为了提高仿真轨迹数据的可扩展性与行为合理性,作者提出了两阶段反应式场景滚动框架:阶段一为轨迹扰动采样,在t=Tego未来H步动作序列进行扰动,使ego抵达新的终止状态t=T+H;阶段二为伪专家示范生成,以阶段一的扰动终止状态作为初始条件,生成与该 OOD 状态配对的监督轨迹。作者设计了recovery-basedplanner-based两种监督生成策略,并且在实验中表明planner-based方法在数据规模扩大时更能支撑性能持续增益.

可扩展的仿真—真实联合训练

将固定规模的真实数据集 与逐轮新增、互不重叠的仿真数据集 混合训练,通过同时采样两域样本来保持人类驾驶分布并抑制由渲染伪影引入的视觉域退化;对依赖示范的回归式/扩散式规划器,联合目标可写为在上最小化模仿损失,其中真实样本使用人类专家轨迹、仿真样本使用伪专家轨迹;对词表打分式规划器,则在联合训练中额外引入奖励/指标蒸馏损失,并进一步探索仿真域仅用奖励监督的训练形式以更充分利用大规模仿真样本。

实验结果

真实数据使用 NAVSIM  navtrain(基于 nuPlan)约 100K 个交互场景;仿真数据同样从 navtrain 构建,并做质量筛选(例如剔除 novel-view PSNR 低的 3DGS block),最终生成约140Krecovery-based)与185Kplanner-based)仿真场景,按多轮无重叠采样逐步累积用于 scaling 实验。覆盖三类代表性端到端规划范式:回归式 LTF、扩散式DiffusionDrive、打分式 GTRS-Dense,并用统一的输入设定与训练策略做公平对比。

消融与scaling分析

作者用拟合函数刻画性能总数据量(真实+仿真)关系,比较不同伪专家(recovery vs planner)与不同架构的 scaling 行为;结果显示更具探索性的planner-based expert 更利于数据规模化收益,且具备多模态建模能力的模型呈现更好的 scaling 趋势,讨论了reward信号在仿真域和真实域上的影响。

三、总结

在本期论坛中,田浩辰为大家系统介绍了SimScale。该工作创新性地提出了一种大规模仿真数据生成的框架,用于弥补真实驾驶数据针对安全关键和长尾分布覆盖不足的缺陷,并且在不同模型上的仿真—真实的联合训练显示了端到端自动驾驶的数据scaling前景。


往期精彩:

AIR-SUN 少年科学家论坛 | Ultra3D:兼顾效率与质量的3D生成大模型

AIR-SUN 少年科学家论坛 | 吴章杰:Difix3D+: 利用单步扩散模型提升三维重建

AIR-SUN少年科学家论坛第十七期 | 卫振宇: D(R, O): Grasp全新交互式表征重塑跨智能体灵巧手抓取

文章撰写 / 岳知润

排版编辑 / 许少聪

校对责编 / 赵昊

内容中包含的图片若涉及版权问题,请及时与我们联系删除