Epona: Autoregressive Diffusion World Model for Autonomous Driving

简介

扩散模型在视频生成中展现出卓越的视觉质量，使其在自动驾驶世界建模方面具有很大潜力。然而，现有的基于视频扩散的世界模型在进行灵活长度、长视野的预测以及融合轨迹规划方面仍存在困难。这是因为传统的视频扩散模型依赖于对固定长度帧序列的全局联合分布建模，而非在每个时间步上逐步构建局部分布。为此，我们提出了Epona——一种自回归扩散世界模型，通过两项关键技术实现局部时空分布建模：1）解耦的时空分解，将时间动态建模与细粒度未来世界生成分离；2）模块化的轨迹与视频预测，在端到端框架中无缝整合运动规划与视觉建模。我们的架构不仅支持高分辨率、长时间的生成，还引入了一种新的“链式前向”训练策略，以缓解自回归循环中的误差累积问题。实验结果表明，相比先前方法，我们的模型在FVD指标上提升了7.4%，且预测时长可达数分钟。所学习到的世界模型还可作为实时运动规划器，在NAVSIM基准测试中超越了强大的端到端规划器。代码将在以下地址公开：\href{https://github.com/Kevin-thu/Epona/}{https://github.com/Kevin-thu/Epona/}。
图表
解决问题

论文旨在解决基于扩散模型的自动驾驶世界建模中存在的两个关键问题：1）现有视频扩散模型难以进行灵活长度和长视野预测；2）缺乏对轨迹规划的有效集成。这个问题具有重要现实意义，因为高质量的世界模型对于自动驾驶系统的感知与决策至关重要。
关键思路

论文提出Epona，一种自回归扩散世界模型，通过两种创新性设计解决了上述问题：1）解耦时空分解，将时间动态建模与细粒度未来场景生成分离；2）模块化轨迹与视频预测，在端到端框架中无缝整合运动规划与视觉建模。
其它亮点

1. 提出了链式前向训练策略以缓解自回归模型中的误差累积问题 2. 实验结果显示在FVD指标上相较之前工作提升了7.4%，并实现了更长时间的预测 3. 所提出的模型不仅用于生成视频，还可作为实时运动规划器，并在NAVSIM基准测试中优于强端到端规划器 4. 代码已开源（https://github.com/Kevin-thu/Epona/），便于后续研究与应用
相关研究

1. Video Diffusion Models for Action-Conditioned 3D Human Motion Generation 2. Flow-based Video Generation with Spatio-Temporal Diffusion 3. World Models for Autonomous Driving: A Survey 4. Planning with Diffusion: Generative World Models Enable Zero-Shot Planning in Visual Domains 5. Latent Video Diffusion Models for High-Fidelity Long-Term Prediction

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论