- 简介世界模型可以预测不同行动的结果,这对于自动驾驶至关重要。然而,现有的驾驶世界模型仍然存在着一般化到未知环境、预测关键细节的准确性和灵活应用的行动可控性等方面的限制。本文提出了Vista,一个具有高保真度和多功能可控性的通用驾驶世界模型。在对现有方法进行系统诊断的基础上,我们引入了几个关键因素来解决这些限制。为了准确预测高分辨率的真实世界动态,我们提出了两个新的损失函数,以促进移动实例和结构信息的学习。我们还设计了一种有效的潜在替换方法,通过注入历史帧作为先验来实现连贯的长期预测。为了实现行动可控性,我们通过有效的学习策略将高级意图(命令、目标点)到低级操作(轨迹、角度和速度)的多功能控制集成在一起。在大规模训练之后,Vista的能力可以无缝地推广到不同的情境。在多个数据集上的广泛实验表明,Vista在超过70%的比较中优于最先进的通用视频生成器,并在FID和FVD方面比表现最佳的驾驶世界模型分别提高了55%和27%。此外,我们首次利用Vista本身的能力建立了一个通用的奖励,用于实现对真实世界行动的评估,而不需要访问地面真实行动。
- 图表
- 解决问题本论文旨在解决自动驾驶中世界模型在泛化到未知环境、预测关键细节和灵活应用方面存在的限制问题。
- 关键思路论文提出了Vista,一个具有高保真度和多功能可控性的通用驾驶世界模型,并引入了几个关键因素来解决现有方法的局限性。
- 其它亮点论文通过引入两个新的损失函数来促进学习移动实例和结构信息,提出了一种有效的潜在替换方法,将历史帧注入为连贯的长期预测提供先验。为了实现行动可控性,论文通过一种高效的学习策略将高级意图(指令、目标点)和低级机动(轨迹、角度和速度)结合起来。Vista可以无缝地推广到不同的场景。在多个数据集上的广泛实验表明,Vista在70%以上的比较中优于最先进的通用视频生成器,并在FID和FVD方面优于表现最佳的驾驶世界模型分别达到55%和27%。此外,论文还利用了Vista本身的能力,建立了一个可推广的奖励,用于实际行动评估而不需要访问地面真实行动。
- 相关研究包括:Learning to Drive Using Inverse Reinforcement Learning,Learning a Driving Simulator,End-to-End Learning of Driving Models from Large-scale Video Datasets,Unsupervised Learning for Physical Interaction through Video Prediction等。
沙发等你来抢
去评论
评论
沙发等你来抢