MambaVC: Learned Visual Compression with Selective State Spaces

2024年05月24日
  • 简介
    学习视觉压缩是多媒体中一个重要且活跃的任务。现有方法已经探索了各种基于CNN和Transformer的设计来建模内容分布和消除冗余,其中平衡效能(即码率-失真权衡)和效率仍然是一个挑战。最近,状态空间模型(SSMs)因其长期建模能力和效率而显示出很大的潜力。受此启发,我们迈出了探索SSMs用于视觉压缩的第一步。我们引入了MambaVC,这是一个基于SSM的简单、强大且高效的压缩网络。MambaVC开发了一个视觉状态空间(VSS)块,其中包括一个二维选择扫描(2DSS)模块作为每个下采样后的非线性激活函数,有助于捕捉信息丰富的全局上下文并增强压缩。在压缩基准数据集上,MambaVC具有更优秀的码率-失真性能,同时计算和内存开销更小。具体而言,在Kodak数据集上,它比CNN和Transformer变体分别提高了9.3%和15.6%,同时计算减少了42%和24%,内存节省了12%和71%。MambaVC在高分辨率图像上的表现甚至更为出色,凸显了它在实际应用中的潜力和可扩展性。我们还提供了不同网络设计的全面比较,突出了MambaVC的优势。代码可在https://github.com/QinSY123/2024-MambaVC获得。
  • 图表
  • 解决问题
    论文尝试使用状态空间模型(SSM)来进行视觉压缩,解决现有方法在平衡效率和效果方面的挑战。
  • 关键思路
    MambaVC是一种基于SSM的视觉压缩网络,通过引入2D选择性扫描(2DSS)模块来捕获全局上下文信息并增强压缩效果。
  • 其它亮点
    MambaVC在压缩基准数据集上表现出优异的速率失真性能,比CNN和Transformer变体分别提高了9.3%和15.6%,同时减少了42%和24%的计算量和节省了12%和71%的内存。此外,MambaVC在高分辨率图像方面表现出更大的优势,并提供了全面的网络设计比较。研究者还提供了代码。
  • 相关研究
    最近的相关研究包括使用CNN和Transformer进行视觉压缩的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论