- 简介扩散模型(DMs)显著推动了真实世界图像超分辨率(Real-ISR)的发展,但多步扩散模型的计算成本限制了其应用。一步扩散模型可以在一次采样步骤中生成高质量图像,大大减少了计算开销和推理延迟。然而,大多数现有的一步扩散方法受限于教师模型的性能,教师模型性能不佳会导致图像出现伪影。为了解决这一局限性,我们提出了FluxSR,这是一种基于流匹配模型的一步扩散Real-ISR新技术。我们使用最先进的扩散模型FLUX.1-dev作为教师模型和基础模型。首先,我们引入了流轨迹蒸馏(FTD),将多步流匹配模型蒸馏成一步Real-ISR模型。其次,为了提高图像的真实感并解决生成图像中的高频伪影问题,我们提出了一种感知损失TV-LPIPS,并引入了注意力多样化损失(ADL)作为正则化项以减少变压器中的标记相似性,从而消除高频伪影。广泛的实验表明,我们的方法优于现有的基于一步扩散的Real-ISR方法。代码和模型将在https://github.com/JianzeLi-114/FluxSR发布。
- 图表
- 解决问题论文试图解决一歩扩散模型在实际图像超分辨率(Real-ISR)应用中的性能限制问题,特别是当教师模型表现不佳时产生的图像伪影问题。这是一个重要的研究问题,因为多步扩散模型的计算成本较高,限制了其广泛应用。
- 关键思路关键思路是引入了一种名为FluxSR的一步扩散Real-ISR技术,该技术基于流匹配模型,并使用最先进的扩散模型FLUX.1-dev作为教师模型和基础模型。通过Flow Trajectory Distillation (FTD)将多步流匹配模型蒸馏成一步Real-ISR模型,同时提出TV-LPIPS感知损失和Attention Diversification Loss (ADL)正则化项来减少变压器中的标记相似性,从而消除高频伪影。这一方法相比现有研究的独特之处在于结合了流匹配模型和特定的损失函数来提高图像质量和减少伪影。
- 其它亮点论文的主要亮点包括:1) 提出了新的Flow Trajectory Distillation (FTD)方法,可以有效地将多步模型转换为一步模型;2) 引入了TV-LPIPS感知损失和ADL正则化项,显著改善了生成图像的真实感并减少了高频伪影;3) 实验设计全面,验证了方法的有效性;4) 使用了多个数据集进行测试,并且代码和模型将在GitHub上开源,方便后续研究。值得继续深入的研究方向包括进一步优化FTD方法,以及探索其他类型的损失函数对图像质量的影响。
- 最近在这个领域中,还有其他相关的研究,例如:1) 'Diffusion Models Beat GANs on Image Synthesis',探讨了扩散模型在图像合成中的优势;2) 'One-Shot Diffusion Models for Fast Inference',研究了一步扩散模型的快速推理问题;3) 'Perceptual Losses for Real-Time Style Transfer and Super-Resolution',介绍了感知损失在实时风格迁移和超分辨率中的应用。
沙发等你来抢
去评论
评论
沙发等你来抢