Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

2024年09月17日
  • 简介
    最近的研究表明,通过将深度估计作为图像条件图像生成任务,可以将大型扩散模型重复使用作为高精度单目深度估计器。虽然该模型取得了最先进的结果,但由于多步推理造成的高计算需求限制了其在许多场景中的使用。在本文中,我们展示了感知效率低下是由于推理管道中存在一个迄今未被注意到的缺陷所致。修复后的模型在性能上与之前报告的最佳配置相当,而速度却快了200多倍。为了优化下游任务的性能,我们在单步模型的基础上进行端到端微调,并使用任务特定的损失,得到了一个确定性模型,该模型在常见的零样本基准测试中优于所有其他基于扩散的深度和法向估计模型。令人惊讶的是,我们发现这种微调协议也可以直接应用于稳定扩散,并且在深度和法向估计的基于扩散的最新模型中实现了可比较的性能,这对以前的一些结论提出了质疑。
  • 图表
  • 解决问题
    本文试图通过修复推理流程中的缺陷,提高多步推理的效率,从而将大型扩散模型应用于单目深度估计任务,达到更高的精度。
  • 关键思路
    本文通过优化单步模型并进行端到端微调,实现了比之前的扩散模型更快速、更准确的单目深度估计,同时还发现这种微调方法也适用于 Stable Diffusion,效果与当前最先进的扩散模型相当。
  • 其它亮点
    本文的实验设计包括端到端微调和使用多个数据集进行测试,证明了单步模型的性能优于多步模型,同时也证明了微调方法的有效性。本文对之前的研究结果进行了质疑,并提出了新的解决方案。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Monocular Depth Estimation with Hierarchical Fusion of Dilated CNNs and Soft-Weighted-Sum Inference》、《Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论