Efficient Visual State Space Model for Image Deblurring

2024年05月23日
  • 简介
    卷积神经网络(CNN)和视觉Transformer(ViT)在图像恢复方面取得了出色的性能。与CNN相比,ViT通常在图像恢复方面产生更好的结果,因为它们能够捕捉长距离依赖关系和输入相关特征。然而,基于Transformer的模型的计算复杂度随着图像分辨率的增加呈二次增长,这限制了它们在高分辨率图像恢复任务中的实用性。在本文中,我们提出了一种简单而有效的视觉状态空间模型(EVSSM)用于图像去模糊,利用状态空间模型(SSM)对视觉数据进行处理。与现有方法不同的是,现有方法采用多个固定方向的扫描进行特征提取,这显着增加了计算成本,我们开发了一个高效的视觉扫描块,在每个基于SSM的模块之前应用各种几何变换,捕捉有用的非局部信息并保持高效率。广泛的实验结果表明,所提出的EVSSM在基准数据集和真实捕获的图像上表现优于最先进的图像去模糊方法。
  • 图表
  • 解决问题
    本论文旨在解决高分辨率图像恢复中Transformer-based模型的计算复杂度过高的问题,提出了一种基于状态空间模型的视觉模型(EVSSM)来进行图像去模糊。
  • 关键思路
    本文提出了一种高效的视觉扫描块,该块在每个SSM模块之前应用各种几何变换,从而捕获有用的非局部信息并保持高效性。
  • 其它亮点
    本文提出的EVSSM方法在图像去模糊任务上表现优异,比当前领域内的其他方法更为有效。实验使用了多个基准数据集和真实采集的图像,并展示了EVSSM的优越性。
  • 相关研究
    最近的相关研究包括使用CNN和ViT进行图像恢复,以及其他基于状态空间模型的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论