Ctrl123: Consistent Novel View Synthesis via Closed-Loop Transcription

简介

大型图像扩散模型已经在新视角合成（NVS）中展示了零样本能力。然而，现有的基于扩散的NVS方法在生成新视角时往往难以准确地与相应的地面真实姿态和外观保持一致，即使在训练集上也是如此。这进而限制了下游任务的性能，例如图像到多视角生成和3D重建。我们意识到，这种不一致主要是因为在扩散训练中直接强制执行准确的姿态和外观对齐是困难的，这是现有方法（如Zero123）所做的大部分工作。为了解决这个问题，我们提出了Ctrl123，这是一种基于闭环转录的NVS扩散方法，它在姿态敏感的特征空间中强制执行生成的视角和地面真实情况之间的对齐。我们广泛的实验证明了Ctrl123在NVS和3D重建任务中的有效性，相比现有方法，在多视角一致性和姿态一致性方面都取得了显著的改进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决现有的基于扩散模型的新视角合成方法在生成与真实姿态和外观一致的新视角方面存在的问题，限制了下游任务的性能。
关键思路

Ctrl123是一种基于闭环转录的新视角合成扩散方法，通过在姿态敏感的特征空间中强制生成视角与真实姿态对齐来解决问题。
其它亮点

论文在多视角一致性和姿态一致性方面取得了显著的改进，实验结果表明Ctrl123对于新视角合成和3D重建任务的有效性。论文使用了现有的数据集，但未开源代码。
相关研究

与此相关的研究包括Zero123等现有的基于扩散模型的新视角合成方法。

Ctrl123: Consistent Novel View Synthesis via Closed-Loop Transcription

提问交流

提问交流