Bokeh Diffusion: Defocus Blur Control in Text-to-Image Diffusion Models

向作者提问

NEW

简介

近期，大规模文本到图像模型的进展通过从文本提示生成视觉上引人入胜的输出，彻底改变了创意领域。然而，尽管传统摄影可以通过精确控制相机设置（例如通过光圈控制景深）来塑造视觉美学，当前的扩散模型通常依赖于提示工程来模拟这些效果。这种方法往往导致粗糙的近似结果，并且可能无意中改变场景内容。在本文中，我们提出了景深扩散（Bokeh Diffusion），这是一种场景一致的虚化控制框架，它明确地将扩散模型基于物理上的散焦模糊参数进行调节。为了解决不同相机设置下拍摄的真实世界配对图像稀缺的问题，我们引入了一种混合训练管道，该管道将野外图像与合成模糊增强对齐，从而提供多样化的场景和主体，并为学习分离图像内容与镜头模糊提供监督。我们框架的核心是我们基于图像对训练的锚定自注意力机制，这些图像对来自同一场景但具有不同的虚化程度。这种机制能够在保留底层场景的同时，双向调整模糊强度。大量实验表明，我们的方法能够实现灵活、类似镜头的模糊控制，支持诸如通过逆向操作进行真实图像编辑等下游应用，并且在Stable Diffusion和FLUX架构上均能有效泛化。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决当前文本到图像生成模型中缺乏精确物理相机效果（如景深控制）的问题。现有的方法主要依赖于提示词工程，这可能导致场景内容的不必要改变。这是一个需要改进的具体问题，但并非全新的研究方向。
关键思路

论文提出了一种名为Bokeh Diffusion的新框架，通过显式地将扩散模型条件化为基于物理的散焦模糊参数，从而实现对图像模糊程度的精确控制。其核心创新在于引入了混合训练管道和grounded self-attention机制，利用真实世界图像与合成模糊增强之间的对齐来分离图像内容和镜头模糊，并支持双向调整模糊强度。
其它亮点

1. 提出了一个灵活的镜头模糊控制方法，适用于Stable Diffusion和FLUX架构；2. 使用混合训练策略解决了配对真实图像稀缺的问题；3. 实验展示了在生成高质量视觉效果方面的优越性，并支持实际图像编辑任务；4. 研究开源代码（假设如此），并提供了丰富的实验细节，包括多种数据集上的验证结果；5. 可进一步探索其他光学效应的建模以及跨领域应用的可能性。
相关研究

近期相关研究包括：1. 'DefocusGAN: Learning to Generate Defocused Images for Bokeh Effect'; 2. 'LensFlare Synthesis via Neural Radiance Fields'; 3. 'Controllable Image Generation with Diffusion Models'; 4. 'Realistic Depth-of-Field Simulation using Conditional GANs'. 这些工作主要集中在使用生成对抗网络或扩散模型模拟相机特效，而Bokeh Diffusion则专注于更精细的模糊控制和场景一致性。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问