Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction

2024年07月10日
  • 简介
    本文介绍了Let Occ Flow,这是第一个仅使用相机输入进行联合三维占据和占据流预测的自监督工作,消除了需要三维注释的需求。我们的方法利用TPV实现统一的场景表示,并利用可变形注意力层进行特征聚合,其后接一个反向-向前时间注意力模块以捕捉动态对象的依赖关系,然后是一个三维细化模块,用于精细的体积表示。此外,我们的方法将可微渲染扩展到三维体积流场,利用零样本2D分割和光流线索进行动态分解和运动优化。在nuScenes和KITTI数据集上进行的大量实验证明了我们的方法在先前最先进的方法上具有竞争力的性能。
  • 图表
  • 解决问题
    该论文旨在解决自动驾驶和机器人系统中的动态环境感知问题。具体而言,它提出了一种联合3D占据和占据流预测的自监督方法,仅使用相机输入即可消除对3D注释的需求。
  • 关键思路
    该论文的关键思路是利用TPV进行统一场景表示和可变形注意力层进行特征聚合,结合前向-后向时间注意力模块来捕捉动态对象之间的依赖关系,然后使用3D细化模块进行精细的体积表示,最后将可微渲染扩展到3D体积流场,利用零样本2D分割和光流线索进行动态分解和运动优化。
  • 其它亮点
    该论文的亮点包括:使用自监督方法解决了联合3D占据和占据流预测问题,无需3D注释;使用TPV和可变形注意力层进行特征聚合;引入前向-后向时间注意力模块来捕捉动态对象之间的依赖关系;使用3D细化模块进行精细的体积表示;将可微渲染扩展到3D体积流场,利用零样本2D分割和光流线索进行动态分解和运动优化。论文使用了nuScenes和KITTI数据集进行实验,并在与之前的最新方法进行比较后取得了竞争性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《End-to-End Learning of Driving Models from Large-Scale Video Datasets》、《Joint 3D Tracking and 2D Detection for Autonomous Driving》、《Joint 3D Proposal Generation and Object Detection from View Aggregation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论