Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

向作者提问

NEW

简介

近期的视觉生成模型在图像编辑过程中常常面临一致性的挑战，原因在于光栅图像本身具有纠缠性，所有视觉内容都被融合在单一画布上。相比之下，专业设计工具采用分层表示方法，能够实现局部编辑的同时保持整体一致性。受此启发，我们提出了\textbf{Qwen-Image-Layered}——一种端到端的扩散模型，可将单张RGB图像分解为多个语义上解耦的RGBA图层，从而实现**内在可编辑性**，即每个RGBA图层均可独立操作而不会影响其他内容。为支持可变长度的图像分层分解，我们引入了三个关键技术组件：（1）RGBA-VAE，用于统一RGB与RGBA图像的潜在表示；（2）VLD-MMDiT（可变图层数分解MMDiT）架构，能够灵活分解出数量可变的图像图层；（3）多阶段训练策略，将预训练的图像生成模型逐步适配为多图层图像分解器。此外，针对高质量多图层训练图像稀缺的问题，我们构建了一套从Photoshop源文件（PSD）中提取并标注多图层图像的处理流程。实验结果表明，我们的方法在分解质量方面显著优于现有方法，并建立了一种实现一致性图像编辑的新范式。我们的代码和模型已发布于\href{https://github.com/QwenLM/Qwen-Image-Layered}{https://github.com/QwenLM/Qwen-Image-Layered}。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有视觉生成模型在图像编辑过程中难以保持一致性，因为它们通常基于光栅化图像（单层RGB），导致修改一个区域时容易影响其他内容。而专业设计工具使用分层表示（如PSD文件）来实现局部编辑与整体一致性。本文试图解决如何从单个RGB图像中自动分解出语义解耦的多层RGBA表示，以支持可编辑性的问题。这是一个重要且较新的问题，尤其在生成模型与图像编辑结合的方向上具有挑战性。
关键思路

提出Qwen-Image-Layered，一种端到端的扩散模型，能够将单张RGB图像分解为多个语义独立的RGBA图层。其核心创新在于引入了三个关键组件：(1) RGBA-VAE，统一RGB与RGBA图像的潜在空间；(2) VLD-MMDiT架构，支持可变数量图层的分解；(3) 多阶段训练策略，将预训练生成模型适配为多图层分解器。这种方法实现了‘内在可编辑性’——每个图层可独立操作而不干扰其他内容。
其它亮点

构建了一个从Photoshop文档（PSD）中提取和标注多层图像的数据管道，缓解了高质量多层图像数据稀缺的问题；实验表明该方法在分解质量上显著优于现有方法，并展示了多种下游编辑应用（如替换、移动、删除图层）的一致性优势；代码和模型已开源，项目地址为 https://github.com/QwenLM/Qwen-Image-Layered，有利于社区复现和进一步研究；未来可探索动态层数预测、跨模态引导分解以及在视频编辑中的扩展。
相关研究

1. LayerDiffuse: Uncovering Visual Layers from Diffusion Models for Image Editing 2. Invertible Image Editing with Layered Generative Models 3. Neural Layered Images: Joint View Synthesis and Material Inference via Differentiable Ray Tracing 4. Design-to-Image Generation with Multi-Layered Diffusion Models 5. Palette: Image-to-Image Translation Using Denoising Diffusion Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问