Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

简介

世界模型可以预测不同行动的结果，这对于自动驾驶至关重要。然而，现有的驾驶世界模型在对未知环境的泛化、关键细节的预测准确性以及灵活应用的行动可控性方面仍存在局限性。本文提出了Vista，一个具有高保真度和多功能可控性的通用驾驶世界模型。在对现有方法进行系统诊断的基础上，我们引入了几个关键要素来解决这些限制。为了准确预测高分辨率的真实世界动态，我们提出了两种新的损失函数，以促进移动实例和结构信息的学习。我们还设计了一种有效的潜在替换方法，通过注入历史帧作为先验来实现连贯的长期预测。为了实现行动可控性，我们通过高效的学习策略将高级意图（指令、目标点）到低级机动（轨迹、角度和速度）的多功能控制集成在一起。在大规模训练后，Vista的能力可以无缝地推广到不同的场景。在多个数据集上进行的大量实验表明，Vista在超过70%的比较中优于最先进的通用视频生成器，并在FID和FVD方面分别比最佳驾驶世界模型高出55%和27%。此外，我们首次利用Vista本身的能力，建立了一个可推广的奖励来评估真实世界的行动，而无需访问地面真相行动。
图表
解决问题

本文旨在提出一种通用的、高保真度的、灵活可控的驾驶世界模型，以解决现有驾驶世界模型在泛化、预测精度和行动可控性方面的限制。
关键思路

本文提出了几个关键方法来解决现有方法的局限性，包括两个新的损失函数、一种有效的潜在替代方法和一个灵活的控制策略。该模型能够无缝地适用于不同的场景。
其它亮点

本文的亮点包括：使用两个新的损失函数来提高预测精度；使用潜在替代方法来注入历史帧作为先验；使用灵活的控制策略来实现多层次控制；在多个数据集上进行了大量实验，并展示了模型的优越性能；使用该模型建立了一个通用的奖励函数。
相关研究

最近在这个领域中，还有一些相关的研究，例如：《End-to-End Learning of Driving Models from Large-scale Video Datasets》、《ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst》等。

Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

评论