本文提出了一套基于 Transformer 和时序模型在鸟瞰图视角下优化特征的环视物体检测方案,即 BEVFormer。nuScenes 数据集上以 NDS 指标(类似mAP),在 camera only 赛道中大幅领先之前方法。本文旨在介绍我们在设计 BEVFormer 过程中考虑的思路、比较的多种方法、以及下一步可能的研究方向。

论文标题:

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

论文链接:

https://arxiv.org/pdf/2203.17270.pdf

代码链接:

https://github.com/zhiqi-li/BEVFormer

内容中包含的图片若涉及版权问题,请及时与我们联系删除