Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

2024年09月26日
  • 简介
    利用预训练的文本到图像扩散模型的视觉先验,为稠密预测任务的零样本泛化提供了一个有前途的解决方案。然而,现有方法通常不加批判地使用原始扩散公式,这可能由于稠密预测和图像生成之间的根本差异而不是最佳选择。在本文中,我们对稠密预测的扩散公式进行了系统分析,重点关注质量和效率。我们发现,用于图像生成的原始参数化类型,学习预测噪声,对于稠密预测是有害的;多步噪声/去噪扩散过程也是不必要的,并且很难优化。基于这些见解,我们引入了Lotus,一种基于扩散的视觉基础模型,具有简单而有效的密集预测适应协议。具体而言,Lotus是直接预测注释而不是噪声进行训练,从而避免有害的方差。我们还将扩散过程重新制定为单步过程,简化了优化并显著提高了推理速度。此外,我们还引入了一种称为“详细保护者”的新颖调整策略,实现了更精确和细粒度的预测。在不增加训练数据或模型容量的情况下,Lotus在各种数据集上实现了零样本深度和法线估计的SoTA性能。它还显着提高了效率,比大多数现有的扩散方法快数百倍。
  • 图表
  • 解决问题
    本文旨在提高零样本泛化在密集预测任务中的性能,通过利用预训练的文本到图像扩散模型的视觉先验。但是现有方法往往盲目使用原始扩散公式,由于密集预测与图像生成之间的基本差异,这可能不是最优解。
  • 关键思路
    本文提出了一种名为Lotus的扩散型视觉基础模型,具有简单而有效的密集预测适应协议。Lotus直接预测注释而不是噪声,从而避免有害的方差。此外,我们将扩散过程重新制定为单步过程,简化了优化并显著提高了推理速度。同时,我们引入了一种称为Detail Preserver的新调整策略,实现了更准确和更精细的预测。
  • 其它亮点
    本文的亮点包括:1. 提出了一种新的扩散型视觉基础模型Lotus,可以显著提高零样本泛化在密集预测任务中的性能。2. 引入了一种新的调整策略Detail Preserver,实现了更准确和更精细的预测。3. 实验结果表明,Lotus在各种数据集上都取得了SoTA性能,并且比大多数现有的扩散型方法快数百倍。 4. 本文提出的思路与当前领域的研究状况有所不同,具有一定的新意。
  • 相关研究
    在这个领域中,最近还有一些相关研究,例如:1.《DPT: Dense Prediction Transformer for 3D Vision》2.《ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation》3.《End-to-End Learning of Geometry and Context for Deep Stereo Regression》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论