Generic 3D Diffusion Adapter Using Controlled Multi-View Editing

向作者提问

NEW

简介

开放域三维物体合成由于数据有限和计算复杂度高而落后于图像合成。为了弥补这一差距，最近的研究调查了多视角扩散，但通常在三维一致性、视觉质量或效率方面表现不佳。本文提出了MVEdit，它作为SDEdit的三维对应物，采用祖先采样来共同去噪多视角图像并输出高质量纹理网格。基于现成的二维扩散模型，MVEdit通过无需训练的三维适配器实现三维一致性，将最后一个时间步的二维视图提升为一致的三维表示，然后使用渲染视图调整下一个时间步的二维视图，而不会影响视觉质量。这个框架只需要2-5分钟的推理时间，比得分蒸馏更好地平衡了质量和速度之间的权衡。MVEdit非常灵活和可扩展，具有广泛的应用，包括文本/图像到三维生成、三维到三维编辑和高质量纹理合成。特别是，评估证明了在图像到三维和文本引导纹理生成任务中的最先进性能。此外，我们还介绍了一种在资源有限的小型三维数据集上微调二维潜在扩散模型的方法，实现快速低分辨率文本到三维初始化。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决开放域三维物体合成的数据有限和计算复杂度高的问题。同时，论文还试图提高多视角扩散的三维一致性、视觉质量和效率。
关键思路

论文提出了MVEdit，它是SDEdit的三维对应物，利用祖先采样来同时去噪多视角图像并输出高质量纹理网格。MVEdit通过一个无需训练的3D Adapter实现了3D一致性，该适配器将最后一个时间步的2D视图提升到一个连贯的3D表示中，然后使用渲染视图来调节下一个时间步的2D视图，同时不影响视觉质量。
其它亮点

MVEdit具有高度的灵活性和可扩展性，具有广泛的应用，包括文本/图像到3D生成、3D到3D编辑和高质量纹理合成。实验表明，MVEdit在图像到3D和文本引导纹理生成任务中具有最先进的性能。此外，论文还介绍了一种在资源有限的小型3D数据集上微调2D潜在扩散模型的方法，实现快速低分辨率文本到3D初始化。
相关研究

最近在这个领域中，还有一些相关的研究，如Multi-View Stereo Fusion、Score-Based Generative Modeling和3D Consistency Regularization。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问