Diffusion Feedback Helps CLIP See Better

2024年07月29日
  • 简介
    近期的研究表明,虽然Contrastive Language-Image Pre-training (CLIP)在跨领域和模态下抽象出开放世界的表征方面表现出色,但其在视觉方面存在严重缺陷,例如难以区分方向、数量、颜色、结构等。这些视觉缺陷也限制了建立在CLIP上的多模态大语言模型(MLLMs)的感知能力。主要原因可能是用于训练CLIP的图像-文本对固有偏差,由于文本的差异性和图像的多样性不足。本文提出了一个简单的后训练方法,通过自监督扩散过程,大大克服了CLIP模型的视觉缺陷。我们介绍了DIVA,它使用扩散模型作为CLIP的视觉助手。具体来说,DIVA利用文本到图像扩散模型的生成反馈来优化CLIP的表征,只使用图像(没有相应的文本)。我们证明DIVA在具有挑战性的MMVP-VLM基准测试上提高了CLIP的性能,该测试在很大程度上评估了细粒度视觉能力(例如3-7%),并增强了MLLM和视觉模型在多模态理解和分割任务上的性能。对29个图像分类和检索基准进行的广泛评估证实了我们的框架保持了CLIP强大的零样本能力。我们的代码可在https://github.com/baaivision/DIVA上获得。
  • 图表
  • 解决问题
    解决CLIP模型在视觉方面的缺陷,特别是在方向、数量、颜色、结构等方面的表现不佳,从而限制了多模态大语言模型(MLLMs)的感知能力。
  • 关键思路
    提出DIVA框架,通过自监督扩散过程,利用文本到图像扩散模型的生成反馈来优化CLIP表示,从而大大改善其视觉缺陷。
  • 其它亮点
    DIVA框架在MMVP-VLM基准测试上提高了CLIP的性能,同时增强了MLLM和视觉模型在多模态理解和分割任务上的表现。在29个图像分类和检索基准测试上进行了广泛评估,证明了该框架保留了CLIP强大的零样本能力。该论文提出的方法代码已经开源。
  • 相关研究
    最近的相关研究包括:ClipDART、ViLD、CLIP-RN、CLIP+VTR等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论