Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views

向作者提问

NEW

简介

将一个单一图像合成多视角3D是一项重要而具有挑战性的任务。为此，Zero-1-to-3方法旨在将2D潜在扩散模型扩展到3D范围。这些方法使用单视角源图像和相机姿态作为条件信息生成目标视角图像。然而，Zero-1-to-3采用的一对一方式在建立几何和视觉一致性方面存在挑战，特别是对于复杂对象。我们提出了一个级联生成框架，由两个Zero-1-to-3模型构成，名为Cascade-Zero123，以解决这个问题，逐步从源图像提取3D信息。具体而言，设计了一种自我提示机制，首先生成几个附近的视角。然后将这些视角与源图像一起作为生成条件输入到第二阶段模型中。借助自我提示的多个视角作为补充信息，我们的Cascade-Zero123生成的新视角图像比Zero-1-to-3更具高度一致性。这对于涉及昆虫、人类、透明物体和堆叠多个物体等各种复杂和具有挑战性的场景的推广是显著的。项目页面位于https://cascadezero123.github.io/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在解决从单张图像中合成多视角三维模型的问题，特别是对于复杂物体的几何和视觉一致性问题。
关键思路

关键思路：论文提出了一种级联生成框架，使用两个Zero-1-to-3模型，名为Cascade-Zero123。该框架通过自我提示机制逐步从源图像中提取三维信息，生成多个近邻视角，并将这些视角作为补充信息输入到第二阶段模型中，与源图像一起作为生成条件，从而生成更具一致性的新视角图像。
其它亮点

其他亮点：论文在多个复杂场景中进行了实验验证，包括昆虫、人类、透明物体和多个堆叠物体等。实验结果表明，Cascade-Zero123相比于Zero-1-to-3生成的图像更具一致性。论文还提供了项目页面，其中包括数据集和代码等资源。
相关研究

相关研究：最近的相关研究包括《Learning to Reconstruct 3D Manhattan Wireframes from a Single Image》、《Single-Image Piece-wise Planar 3D Reconstruction via Associative Embedding》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问