- 简介虽然透视是艺术中一个经过深入研究的主题,但在图像中通常被视为理所当然。然而,对于最近一波高质量图像合成方法(如潜在扩散模型)而言,透视准确性并不是一个显式的要求。由于这些方法能够输出各种可能的图像,因此这些合成图像很难遵守线性透视原则。我们在生成模型的训练过程中引入了一种新的几何约束来强制实现透视准确性。我们发现,在这种约束下训练的模型输出既更加逼真,又能提高下游模型在生成图像上的性能。主观人类试验表明,使用我们的约束训练的潜在扩散模型生成的图像比 Stable Diffusion V2 模型的图像更受欢迎(70% 的时间)。在我们的图像上微调的 SOTA 单目深度估计模型(如 DPT 和 PixelFormer)在 KITTI 测试集上的零样本转移中,RMSE 和 SqRel 的表现比使用真实图像训练的原始模型分别提高了最多 7.03% 和 19.3%。
- 图表
- 解决问题论文试图通过引入几何约束来解决高质量图像生成模型中透视精度不足的问题,并验证其对下游任务的提升效果。
- 关键思路论文中提出了在生成模型的训练过程中引入几何约束,以强制要求透视精度,从而使生成的图像更加真实,并提高了下游任务的性能。
- 其它亮点论文通过主观人类试验表明,使用该约束训练的模型生成的图像比Stable Diffusion V2模型生成的图像更受欢迎。在KITTI测试集上,使用该约束训练的图像微调的SOTA单目深度估计模型比原始模型在RMSE和SqRel上分别提高了7.03%和19.3%。论文还提供了数据集和代码。
- 近期的相关研究包括《Generative Adversarial Networks》、《StyleGAN2》、《Diffusion Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢