RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement

2024年04月02日
  • 简介
    本文提出了一种新颖的Contrastive Language-Image Pre-Training (CLIP)指导方法,用于无监督的逆光图像增强任务。该方法基于最先进的CLIP-LIT方法,通过约束提示(负/正样本)和相应图像(逆光图像/光照充足的图像)在CLIP嵌入空间中的文本-图像相似性来学习提示对。学习的提示然后指导图像增强网络。在CLIP-LIT框架的基础上,我们提出了两种新的CLIP指导方法。首先,我们展示了直接在潜在空间中调整提示嵌入而不会降低质量的可能性,而不是在文本嵌入空间中调整提示。这加速了训练,可能还可以使用没有文本编码器的其他编码器。其次,我们提出了一种不需要任何提示调整的新方法。相反,基于训练数据中逆光和光照充足的图像的CLIP嵌入,我们计算嵌入空间中的残差向量,作为光照充足和逆光图像的平均嵌入之间的简单差异。然后,在训练期间,该向量指导增强网络,将逆光图像推向光照充足图像的空间。这种方法进一步显著减少了训练时间,稳定了训练,并在监督和无监督训练模式下产生了高质量的增强图像,没有任何伪影。此外,我们展示了残差向量可以被解释,揭示了训练数据中的偏见,从而可能实现偏见校正。
  • 图表
  • 解决问题
    本论文旨在提出一种新的基于CLIP的无监督背光图像增强方法,解决背光图像增强过程中的问题。
  • 关键思路
    本文提出了两种基于CLIP的方法来引导图像增强网络。第一种方法是直接在潜空间中调整提示的嵌入,而不是在文本嵌入空间中进行调整。第二种方法是不需要任何提示调整,而是基于训练数据中背光和良好照明图像的CLIP嵌入计算残差向量,然后使用该向量引导增强网络。这两种方法都显著减少了训练时间,提高了增强图像的质量。
  • 其它亮点
    本文的亮点包括提出了两种新的基于CLIP的无监督背光图像增强方法,这两种方法都显著减少了训练时间,提高了增强图像的质量;本文还展示了残差向量的解释方法,可以发现训练数据中的偏见,从而可以进行潜在的偏见矫正。
  • 相关研究
    最近的相关研究包括Contrastive Language-Image Pre-Training (CLIP)和CLIP-LIT,以及其他背光图像增强方法,如基于深度学习的方法和基于传统图像处理的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论