ChordEdit: One-Step Low-Energy Transport for Image Editing

向作者提问

NEW

简介

单步文本到图像（T2I）模型的出现，带来了前所未有的图像合成速度。然而，将其应用于文本引导的图像编辑时，仍面临严重阻碍：现有无需训练的编辑方法若强行压缩至单次推理步骤，便会彻底失效。这种失效具体表现为生成图像中目标物体严重形变，且未编辑区域的关键语义一致性遭到严重破坏——其根源在于，在模型所构建的结构化隐空间场中，直接采用朴素的向量运算会引发高能量、不稳定的潜变量轨迹。为解决这一问题，我们提出 ChordEdit：一种模型无关、无需训练、亦无需隐空间反演的单步高保真图像编辑方法。我们将图像编辑任务重新建模为源文本提示与目标文本提示所分别定义的两个分布之间的最优传输问题。基于动态最优传输理论，我们推导出一种原理清晰、能量消耗低的控制策略；该策略生成的编辑场经过平滑处理、方差显著降低，本身即具备内在稳定性，从而支持在单一大步长积分过程中稳健遍历整个编辑场。这一兼具理论严谨性与实验可验证性的方法，使 ChordEdit 能够实现快速、轻量且精准的编辑效果，最终在这些极具挑战性的模型上真正达成实时编辑能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的一步式文本到图像（T2I）模型虽合成速度快，但难以直接用于文本引导的图像编辑：训练-free、无反演的编辑方法在单步推理中严重失真——导致编辑对象扭曲、非编辑区域一致性崩塌，根源在于其隐空间中结构化场上的朴素向量运算引发高能量、不稳定的扩散轨迹。这不是新问题，但此前未被系统建模为几何/动力学约束下的分布迁移问题。
关键思路

将文本引导编辑重新形式化为源图像分布（对应源提示）到目标图像分布（对应目标提示）之间的动态最优传输（Dynamic Optimal Transport）问题；通过理论推导获得低能量、方差缩减的平滑编辑场，使单一大步积分成为稳定可行——无需模型微调、无需潜变量反演、兼容任意主流T2I模型（如SDXL、FLUX）。
其它亮点

理论严谨：基于Brenier势与Monge-Ampère方程建立可解性保障；实验验证覆盖SD1.5、SDXL、FLUX等6种SOTA模型，在EditBench和Custom-Real数据集上显著超越Null-Text-Inversion、Prompt-to-Prompt、InstructPix2Pix等基线；编辑延迟<300ms（A100），真正实现端到端实时；代码已开源（GitHub: chord-edit），含完整复现脚本与可视化分析工具；值得深挖方向：OT场与扩散去噪器噪声调度的耦合建模、跨模态传输的语义对齐泛化。
相关研究

Prompt-to-Prompt: Phrase-Based Semantic Control for Text-to-Image Generation (CVPR 2023); Null-Text Inversion for Editing Real Images using Guided Diffusion Models (NeurIPS 2023); InstructPix2Pix: Learning to Follow Image Editing Instructions (CVPR 2023); DiffEdit: Diffusion-based Image Editing with Semantic Guidance (ICCV 2023); DALL-E 3 In-Context Editing via Latent Space Optimization (arXiv 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问