- 简介本文介绍了一种新颖的模型架构——Vision State Space Models (VSSMs),它将循环神经网络和潜变量模型的优点结合起来,通过高效地捕捉长程依赖和建模复杂的视觉动态,在视觉感知任务中展现出了出色的性能。然而,它们在自然和对抗扰动下的鲁棒性仍然是一个关键问题。本文对VSSMs在各种扰动场景下的鲁棒性进行了全面评估,包括遮挡、图像结构、常见污染和对抗攻击,并将它们的性能与Transformer和卷积神经网络等成熟的架构进行了比较。此外,本文还研究了VSSMs在旨在测试模型在复杂视觉场景中的性能的复杂基准测试中,对对象-背景组合变化的韧性。我们还使用模拟真实场景的受损数据集评估了它们在对象检测和分割任务中的鲁棒性。为了更深入地了解VSSMs的对抗鲁棒性,我们对对抗攻击进行了频率分析,评估它们对低频和高频扰动的性能。我们的研究结果突出了VSSMs在处理复杂视觉污染方面的优势和局限性,为未来的研究和改进提供了宝贵的见解。我们的代码和模型将在https://github.com/HashmatShadab/MambaRobustness上提供。
-
- 图表
- 解决问题本文旨在评估Vision State Space Models (VSSMs)在自然和对抗扰动下的鲁棒性,并将其与传统的神经网络结构进行比较,以确定其在复杂视觉任务中的优势和局限性。
- 关键思路本文采用VSSMs结构,将循环神经网络和潜在变量模型相结合,以有效地捕捉长程依赖性和建模复杂的视觉动态。作者通过实验评估了VSSMs在多种扰动情况下的鲁棒性,并进行了频率分析以深入了解其对抗攻击的鲁棒性。
- 其它亮点本文的实验设计包括对多种扰动情况的评估,如遮挡、图像结构、常见损坏和对抗攻击,以及在复杂视觉场景中的物体-背景组合变化的鲁棒性评估。作者还评估了VSSMs在对象检测和分割任务中的鲁棒性,并提供了代码和模型。
- 在相关研究方面,最近的工作包括对抗攻击的防御机制和其他神经网络结构的鲁棒性评估,如变形卷积网络和转换器。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流