DiffusionPID: Interpreting Diffusion via Partial Information Decomposition

2024年06月07日
  • 简介
    文本到图像扩散模型在从文本输入生成自然图像方面取得了显著进展,并展示了学习和表示复杂视觉-语义关系的能力。虽然这些扩散模型取得了显著成功,但是它们的性能背后的基本机制尚未完全解释清楚,许多未解答的问题围绕它们学习了什么,如何表示视觉-语义关系以及为什么它们有时无法推广。我们的工作提出了扩散部分信息分解(DiffusionPID),这是一种新颖的技术,应用信息论原理将输入文本提示分解为其基本组成部分,从而详细研究单个标记及其交互如何塑造生成的图像。我们引入了一种正式的方法来分析唯一性、冗余性和协同作用项,通过将PID应用于图像和像素级的去噪模型。这种方法使我们能够表征单个标记及其交互如何影响模型输出。我们首先对模型用于唯一定位特定概念的特征进行了细粒度分析,然后在偏差分析中应用了我们的方法,并展示了它可以恢复性别和种族偏差。最后,我们使用我们的方法从模型的角度对单词的歧义性和相似性进行视觉表征,并说明了我们的方法对提示干预的有效性。我们的结果表明,PID是评估和诊断文本到图像扩散模型的有力工具。
  • 图表
  • 解决问题
    本论文旨在探讨文本到图像扩散模型的工作机制,包括其如何学习和表示复杂的视觉语义关系,以及为什么有时会失败。
  • 关键思路
    本文提出了一种名为Diffusion Partial Information Decomposition(DiffusionPID)的新技术,应用信息论原理对输入的文本提示进行分解,以详细研究单个标记及其交互如何塑造生成的图像。
  • 其它亮点
    本文通过细粒度分析模型用于唯一定位特定概念的特征,以及应用于偏差分析并演示其可以恢复性别和种族偏差。同时,使用该方法对单词的歧义性和相似性进行视觉特征化,并说明了该方法在提示干预方面的有效性。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Generative Adversarial Text-to-Image Synthesis》和《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论