Progressive Query Refinement Framework for Bird's-Eye-View Semantic Segmentation from Surrounding Images

2024年07月24日
  • 简介
    本文将多分辨率(MR)特征的表达方式引入到自动驾驶中的鸟瞰图(BEV)语义分割中,通过引入残差学习,增强了模型对于驾驶场景的全局和局部特征的捕捉能力。具体而言,给定一组MR BEV查询地图,最低分辨率的查询地图首先使用视图转换(VT)编码器进行更新。然后,将该更新后的查询地图进行上采样,并与更高分辨率的查询地图合并,以便在随后的VT编码器中进一步更新。重复此过程,直到更新后的查询地图的分辨率达到目标。最后,将最低分辨率地图添加到目标分辨率中,生成最终的查询地图。在训练过程中,我们强制要求最低分辨率和最终查询地图与地面真实BEV语义地图对齐,以帮助模型有效地捕捉全局和局部特征。我们还提出了一种视觉特征交互网络,促进了图像和特征层之间的特征交互,从而极大地提高了性能。我们在大规模真实世界数据集上评估了我们的模型。实验结果表明,我们的模型在IoU指标方面优于SOTA模型。代码可在https://github.com/d1024choi/ProgressiveQueryRefineNet上获得。
  • 图表
  • 解决问题
    将多分辨率(MR)特征引入Bird's-Eye-View(BEV)语义分割,以增强模型对驾驶场景的全局和局部特征的抓取能力。
  • 关键思路
    通过引入视图变换(VT)编码器对一组MR BEV查询地图进行更新,然后将其与更高分辨率的查询地图合并,并在接下来的VT编码器中进行进一步更新,直到更新的查询地图的分辨率达到目标分辨率。最后,将最低分辨率地图添加到目标分辨率地图中生成最终查询地图。
  • 其它亮点
    论文通过引入MR概念和残差学习增强了BEV语义分割模型的全局和局部特征抓取能力。同时,还提出了一种视觉特征交互网络,促进了图像和特征层之间的交互,从而大大提高了性能。实验结果表明,该模型在IoU指标方面优于SOTA模型。代码已开源。
  • 相关研究
    最近的相关研究包括:'A Review on Semantic Segmentation of Urban Street Scenes','BEV Segmentation for Autonomous Driving: A Survey','Progressive Fusion Video Semantic Segmentation Using High-Order Attention Networks'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论