DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

2024年03月11日
  • 简介
    这篇文章提出了DriveDreamer-2,它基于DriveDreamer框架并整合了大型语言模型(LLM)以生成用户定义的驾驶视频。具体来说,首先加入了LLM接口,将用户的查询转换成代理轨迹。随后,基于这些轨迹生成符合交通规则的HDMap。最后,作者提出了统一多视图模型,以增强生成的驾驶视频的时间和空间连贯性。DriveDreamer-2是第一个生成定制驾驶视频的世界模型,它可以以用户友好的方式生成不常见的驾驶视频(例如,车辆突然切入)。此外,实验结果表明,生成的视频可以增强驾驶感知方法(例如,3D检测和跟踪)的训练。此外,DriveDreamer-2的视频生成质量超过其他最先进的方法,展示了FID和FVD得分分别为11.2和55.7,相对改进率分别为30%和50%。
  • 图表
  • 解决问题
    DriveDreamer-2试图解决生成自定义驾驶视频的问题,以增强驾驶感知方法的训练。
  • 关键思路
    DriveDreamer-2使用大型语言模型生成用户定义的代理轨迹,并根据该轨迹生成遵守交通规则的高清地图,最终使用统一的多视角模型增强生成的驾驶视频的时间和空间连贯性。
  • 其它亮点
    DriveDreamer-2是第一个生成自定义驾驶视频的世界模型,可以以用户友好的方式生成不常见的驾驶视频,实验结果表明,生成的视频提高了驾驶感知方法(如3D检测和跟踪)的训练,DriveDreamer-2的视频生成质量超过了其他最先进的方法,展示了FID和FVD分数的相对改进30%和50%。
  • 相关研究
    最近的相关研究包括使用生成式对抗网络(GAN)和变分自动编码器(VAE)生成驾驶场景,如“Learning to Drive in a Day”和“World on Rails”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论