Implicit and Explicit Language Guidance for Diffusion-based Visual Perception

向作者提问

NEW

简介

文本到图像扩散模型已经在有条件的图像合成方面表现出强大的能力。通过大规模的视觉-语言预训练，扩散模型能够在不同的文本提示下生成具有丰富纹理和合理结构的高质量图像。然而，将预训练的扩散模型适应于视觉感知仍然是一个开放性问题。在本文中，我们提出了一个隐式和显式语言引导框架，用于基于扩散的感知，称为IEDP。我们的IEDP包括一个隐式语言引导分支和一个显式语言引导分支。隐式分支使用冻结的CLIP图像编码器直接生成隐式文本嵌入，这些嵌入被馈送到扩散模型中，而不使用显式文本提示。显式分支利用相应图像的基本真实标签作为文本提示，以调节扩散模型的特征提取。在训练期间，我们通过共享这两个分支的模型权重来联合训练扩散模型。因此，隐式和显式分支可以共同引导特征学习。在推理期间，我们仅使用隐式分支进行最终预测，这不需要任何基本真实标签。我们在两个典型的感知任务上进行了实验，包括语义分割和深度估计。我们的IEDP在两个任务上都取得了有希望的表现。对于语义分割，我们的IEDP在AD20K验证集上具有55.9%的mIoU分数，比基线方法VPD高出2.2%。对于深度估计，我们的IEDP相对增益为10.2%，优于基线方法VPD。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

IEDP论文试图解决的问题是如何将Text-to-image diffusion models应用于视觉感知任务中，特别是在语言指导下的条件图像生成中。
关键思路

IEDP提出了一种隐式和显式语言指导的框架，其中隐式分支使用冻结的CLIP图像编码器生成隐式文本嵌入，并将其馈送到扩散模型中，而显式分支则利用相应图像的真实标签作为文本提示来调节扩散模型的特征提取。在训练期间，两个分支共享模型权重，以共同指导特征学习。在推理期间，只使用隐式分支进行最终预测，不需要任何真实标签。
其它亮点

论文的亮点是通过IEDP框架在两个典型的感知任务（语义分割和深度估计）上实现了良好的性能，其中对于AD20K验证集的语义分割，IEDP的mIoU得分为55.9％，比基线方法VPD高出2.2％，而对于深度估计，IEDP相对于VPD的相对增益为10.2％。
相关研究

最近的相关研究包括：1）CLIP模型的应用，2）条件图像生成方法的改进，3）基于扩散模型的视觉感知方法的研究。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问