On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

2026年03月30日
  • 简介
    当前主流的文本到图像(T2I)扩散模型虽已实现卓越的语义对齐能力,却普遍存在多样性严重不足的问题——针对任一给定提示词,模型往往收敛于极为有限的一组视觉结果。这种典型性偏差,为亟需丰富生成结果的创意型应用带来了显著挑战。我们发现,现有提升多样性的方法面临一个根本性权衡:若通过调整模型输入来引入反馈,则需耗费大量计算资源进行优化;而若直接作用于空间结构已初步确定的中间隐变量,则又极易破坏正在形成的视觉结构,导致生成伪影。本文提出一种全新范式——在“上下文空间”(Contextual Space)中施加排斥力(repulsion),以实现扩散Transformer模型中丰富多样的图像生成。具体而言,我们通过对多模态注意力通道进行干预,在Transformer前向传播过程中实时注入排斥机制,并将该干预操作精准嵌入至文本条件信息已融合新兴图像结构的关键层间位置。这一设计使得引导路径可在视觉结构已具雏形、但整体构图尚未最终固化之时被动态重定向。实验结果表明,“上下文空间排斥法”能在不损害图像保真度与语义忠实度的前提下,显著提升生成结果的多样性。此外,本方法具备独特高效性:仅引入极小的计算开销,且即便在当前最先进的“Turbo”版本及知识蒸馏模型中依然保持优异效果——而传统基于生成轨迹的干预方法在这些轻量级模型上通常完全失效。
  • 作者讲解
  • 图表
  • 解决问题
    现代文本到图像(T2I)扩散模型虽具备强语义对齐能力,但普遍存在典型性偏差(typicality bias),即对同一提示词生成高度同质化的图像,严重限制了创意生成任务所需的视觉多样性。该问题在高效、低开销前提下兼顾多样性与保真度的场景中尤为突出,且尚未被现有方法系统性解决。
  • 关键思路
    提出‘上下文空间排斥’(Repulsion in the Contextual Space)新范式:不在输入空间或像素/潜空间施加扰动,而是在Diffusion Transformer的多模态注意力通道中、于文本条件已融合初步图像结构但全局构图尚未固化的关键中间层,动态注入轻量级、前向传播式的排斥干预。该思路首次将多样性调控锚定在‘语义-结构耦合’的上下文表征层面,规避了输入优化的高成本和潜空间扰动的结构破坏性。
  • 其它亮点
    实验在SDXL、Stable Diffusion 3及商用‘Turbo’和蒸馏模型上验证,显著提升多样性(FID↑、LPIPS↑、CLIP-Discrepancy↑)同时保持语义一致性(CLIP-Score稳定);计算开销仅增加<5% FLOPs,无需反向传播或迭代优化;代码已开源;亮点还包括对注意力头维度的细粒度排斥设计、跨模型泛化性验证,以及在零样本prompt多样性评估协议下的鲁棒表现;值得深入的方向包括:排斥强度的自适应调度、多提示协同排斥机制、以及在视频生成中的迁移。
  • 相关研究
    DALL·E 3: Hierarchical Text-to-Image Generation with Cascaded Transformers; PixArt-Σ: Fast and High-Resolution Text-to-Image Diffusion Modeling; Stable Diffusion 3 Technical Report; CFG++: Improving Classifier-Free Guidance with Dynamic Guidance Scheduling; Prompt-to-Prompt Image Editing with Cross-Attention Control
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问