RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation

2024年04月03日
  • 简介
    视觉-语言模型(VLMs)整合了多种模态的信息,在各种任务中取得了显著的成功。然而,在资源受限的情况下部署大规模的视觉和语言模型的VLMs存在挑战。虽然修剪后微调提供了一种潜在的解决方案,可以使用更小的模型尺寸来保持性能,但其在VLMs中的应用相对未被探索,提出了两个主要问题:如何在不同的模态特定模型之间分配稀疏性,以及如何修复修剪后的稀疏VLMs的性能。为了回答第一个问题,我们进行了关于VLM修剪的初步研究,发现使用相同稀疏度比率修剪视觉模型和语言模型可以实现几乎最优的性能。对于第二个问题,与微调单模稀疏模型不同,稀疏VLMs涉及跨模态交互,需要专门的技术进行修剪后的性能修复。此外,虽然已经提出了参数高效的LoRA微调来修复稀疏模型的性能,但由于稀疏模型破坏了修剪模型的稀疏性,稠密LoRA模块与稀疏模型不兼容,导致权重合并的重大挑战。为了解决这些挑战,我们提出了通过稀疏交叉模态适应(RESSA)来修复稀疏视觉-语言模型。RESSA利用跨模态微调来增强任务特定性能,并促进从原始密集模型的知识蒸馏。此外,我们引入了SparseLoRA,它直接将稀疏性应用于LoRA权重,实现与稀疏模型的无缝集成。我们的实验结果验证了RESSA的有效性,展示了显著的增强效果,例如在2:4稀疏度下的11.3%改进和在非结构化70%稀疏度下的显著47.6%增强。
  • 图表
  • 解决问题
    本论文旨在解决VLMs在资源受限场景中的部署问题,探索剪枝和微调VLMs的应用,以及如何在剪枝后修复性能的问题。
  • 关键思路
    论文提出了一种名为RESSA的方法,利用跨模态微调和知识蒸馏来提高任务特定的性能,并提出了SparseLoRA来解决权重合并的问题。
  • 其它亮点
    论文通过对VLMs进行剪枝和微调,提出了RESSA和SparseLoRA方法来解决剪枝后性能下降的问题,并在实验中验证了这些方法的有效性。实验结果表明,在2:4和70%稀疏度下,RESSA分别提高了11.3%和47.6%的性能。
  • 相关研究
    最近的相关研究包括《Learning Cross-Modal Retrieval with Multi-Attention Fusion》和《Dynamic Multimodal Knowledge Distillation for Image Captioning》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论