Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

2025年12月17日
  • 简介
    近期的视觉生成模型在图像编辑过程中常常面临一致性的挑战,原因在于光栅图像本身具有纠缠性,所有视觉内容都被融合在单一画布上。相比之下,专业设计工具采用分层表示方法,能够实现局部编辑的同时保持整体一致性。受此启发,我们提出了\textbf{Qwen-Image-Layered}——一种端到端的扩散模型,可将单张RGB图像分解为多个语义上解耦的RGBA图层,从而实现**内在可编辑性**,即每个RGBA图层均可独立操作而不会影响其他内容。为支持可变长度的图像分层分解,我们引入了三个关键技术组件:(1)RGBA-VAE,用于统一RGB与RGBA图像的潜在表示;(2)VLD-MMDiT(可变图层数分解MMDiT)架构,能够灵活分解出数量可变的图像图层;(3)多阶段训练策略,将预训练的图像生成模型逐步适配为多图层图像分解器。此外,针对高质量多图层训练图像稀缺的问题,我们构建了一套从Photoshop源文件(PSD)中提取并标注多图层图像的处理流程。实验结果表明,我们的方法在分解质量方面显著优于现有方法,并建立了一种实现一致性图像编辑的新范式。我们的代码和模型已发布于\href{https://github.com/QwenLM/Qwen-Image-Layered}{https://github.com/QwenLM/Qwen-Image-Layered}。
  • 作者讲解
  • 图表
  • 解决问题
    现有视觉生成模型在图像编辑过程中难以保持一致性,因为它们通常基于光栅化图像(单层RGB),导致修改一个区域时容易影响其他内容。而专业设计工具使用分层表示(如PSD文件)来实现局部编辑与整体一致性。本文试图解决如何从单个RGB图像中自动分解出语义解耦的多层RGBA表示,以支持可编辑性的问题。这是一个重要且较新的问题,尤其在生成模型与图像编辑结合的方向上具有挑战性。
  • 关键思路
    提出Qwen-Image-Layered,一种端到端的扩散模型,能够将单张RGB图像分解为多个语义独立的RGBA图层。其核心创新在于引入了三个关键组件:(1) RGBA-VAE,统一RGB与RGBA图像的潜在空间;(2) VLD-MMDiT架构,支持可变数量图层的分解;(3) 多阶段训练策略,将预训练生成模型适配为多图层分解器。这种方法实现了‘内在可编辑性’——每个图层可独立操作而不干扰其他内容。
  • 其它亮点
    构建了一个从Photoshop文档(PSD)中提取和标注多层图像的数据管道,缓解了高质量多层图像数据稀缺的问题;实验表明该方法在分解质量上显著优于现有方法,并展示了多种下游编辑应用(如替换、移动、删除图层)的一致性优势;代码和模型已开源,项目地址为 https://github.com/QwenLM/Qwen-Image-Layered,有利于社区复现和进一步研究;未来可探索动态层数预测、跨模态引导分解以及在视频编辑中的扩展。
  • 相关研究
    1. LayerDiffuse: Uncovering Visual Layers from Diffusion Models for Image Editing 2. Invertible Image Editing with Layered Generative Models 3. Neural Layered Images: Joint View Synthesis and Material Inference via Differentiable Ray Tracing 4. Design-to-Image Generation with Multi-Layered Diffusion Models 5. Palette: Image-to-Image Translation Using Denoising Diffusion Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问