Activating Wider Areas in Image Super-Resolution

2024年03月13日
  • 简介
    卷积神经网络(CNNs)和视觉变换器(ViTs)的普及显著改变了单图像超分辨率(SISR)领域。为了进一步提高SR性能,引入了一些技术,如残差学习和注意机制,这可以很大程度上归因于更广泛的激活区域,即强烈影响SR结果的输入像素范围。然而,通过另一个多才多艺的视觉骨干进一步提高SR性能的可能性仍然是一个未解决的挑战。为了解决这个问题,在本文中,我们释放了现代状态空间模型,即Vision Mamba(Vim)在SISR的背景下的表示潜力。具体来说,我们提出了三种更好地利用基于Vim的模型的方法:1)集成到MetaFormer风格的块中;2)在更大更广泛的数据集上进行预训练;3)采用补充的注意机制,在此基础上我们引入了MMA。由此产生的网络MMA能够找到最相关和代表性的输入像素来重建相应的高分辨率图像。全面的实验分析表明,MMA不仅在与最先进的SISR方法相比实现了竞争性甚至更高的性能,而且还保持了相对较低的内存和计算开销(例如,在2倍尺度下Manga109数据集上的+0.5 dB PSNR提升,具有19.8 M参数)。此外,MMA在轻量级SR应用中证明了其多才多艺。通过这项工作,我们旨在阐明状态空间模型在图像处理更广泛的领域中的潜在应用,而不仅仅是SISR,鼓励进一步探索这个创新的方向。
  • 图表
  • 解决问题
    本文旨在探索使用现代状态空间模型(Vision Mamba)来提高单图超分辨率(SISR)性能的可能性。
  • 关键思路
    本文提出了三种更好地利用基于Vision Mamba的模型的方法,并介绍了一种新的补充注意机制(MMA),以提高SR性能。
  • 其它亮点
    实验结果表明,MMA不仅在SR方面表现出竞争力甚至优于现有的SISR方法,而且在轻量级SR应用中也具有通用性。
  • 相关研究
    最近的相关研究包括使用卷积神经网络(CNNs)和视觉变换器(ViTs)进行SISR的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论