Playing to Vision Foundation Model's Strengths in Stereo Matching

简介

立体匹配已经成为智能车辆中三维环境感知的关键技术。相当长一段时间以来，卷积神经网络（CNNs）一直是该领域特征提取的主流选择。尽管如此，越来越多的人认为现有的范例应该向视觉基础模型（VFM）发展，特别是那些基于视觉Transformer（ViTs）开发的，并通过自监督在广泛的未标记数据集上进行预训练的模型。虽然VFMs擅长提取信息丰富的通用视觉特征，特别是针对密集预测任务，但它们的性能在几何视觉任务方面通常欠缺。本研究是对一种适应VFMs进行立体匹配的可行方法的首次探索。我们的ViT适配器称为ViTAS，由三种类型的模块构成：空间差异化、补丁注意融合和交叉注意力。前一模块初始化特征金字塔，而后两个模块分别将立体和多尺度上下文信息聚合到细粒度特征中。ViTAStereo将ViTAS与基于成本体积的立体匹配后端处理相结合，在KITTI Stereo 2012数据集上取得了最高排名，并在误差像素百分比方面比第二优网络StereoBase高出约7.9％，容忍3个像素。在各种场景下的额外实验进一步证明了它相对于所有其他最先进方法的卓越通用性。我们认为这种新范式将为下一代立体匹配网络铺平道路。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究如何将vision Transformers(ViT)应用于立体匹配任务，提高其性能
关键思路

构建ViT适配器(ViTAS)，包括三种模块：空间差分、补丁注意融合和交叉注意力，将立体和多尺度上下文信息聚合成细粒度特征，与基于代价体积的立体匹配后端过程相结合
其它亮点

ViTAStereo在KITTI Stereo 2012数据集上取得最高排名，并且在像素误差率方面比第二名网络StereoBase高出约7.9％。实验结果表明，ViTAStereo具有比所有其他最先进方法更好的泛化性能。
相关研究

最近的相关研究包括使用CNN进行立体匹配的方法，以及使用ViT进行计算机视觉任务的研究，如图像分类和目标检测。

Playing to Vision Foundation Model's Strengths in Stereo Matching

提问交流

提问交流