在自动驾驶领域,基于激光雷达(LiDAR)的 3D 物体检测和运动行为预测是一种普遍的方案。目前绝大部分关于激光雷达的物体检测算法都是基于单帧的。
激光雷达的多帧时序数据,提供了对于检测物体的多视角观测(multiple views),历史记忆(history memory),安全冗余(redundant safty),以及运动特征(motion kinematics)等丰富的信息;可用来帮助提高检测速度和精度,并且增加检测结果的可靠性。
对于感知的下游模块,例如追踪和预测,时序信息则更为重要。
在传统视频理解领域,时序信息融合研究相对比较成熟,具体方法主要通过后处理 (post-processing)来建立检测物体间的对应关系 [1,2];借助光流(optical flow)跨越多帧来传播高层特征 [3,4];或者利用记忆对准(memory alignment)直接融合多帧特征信息 [5,6]。
相较于视频或者图像,激光雷达的点云非常稀疏,导致对其提取的特征图谱 (feature maps)也非常稀疏;此外,在点云鸟瞰图(bird’s eye view)中绝大多数前景物体如车辆和行人只占据很小的空间范围。所以如何有效融合激光雷达的时序信息对于学术界和工业界仍然是一个开放的问题。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢