Pippo: High-Resolution Multi-View Humans from a Single Image

2025年02月11日
  • 简介
    我们介绍了Pippo,这是一种生成模型,能够从单张随意拍摄的照片生成1K分辨率的密集视角转换视频。Pippo是一个多视图扩散变压器,不需要任何额外的输入——例如,拟合的参数化模型或输入图像的相机参数。我们在30亿张无字幕的人像图片上预训练Pippo,并在捕捉到的工作室人像上进行中期和后期的多视图训练。在中期训练中,为了快速吸收工作室数据集,我们在低分辨率下对多个视图(最多48个)进行去噪,并使用浅层MLP粗略编码目标相机。在后期训练中,我们在高分辨率下对较少的视图进行去噪,并使用像素对齐控制(例如,空间锚点和Plucker射线)以实现3D一致性生成。在推理过程中,我们提出了一种注意力偏差技术,使Pippo能够同时生成比训练期间看到的视图多五倍以上的视图。最后,我们还引入了一种改进的度量方法来评估多视图生成的3D一致性,并展示了Pippo在从单张图像生成多视图人像方面优于现有工作。
  • 图表
  • 解决问题
    该论文试图解决从单张随意拍摄的人像照片生成高分辨率(1K)多视角视频的问题。这是一个具有挑战性的问题,因为从单一视角的输入中重建三维信息需要强大的建模能力和泛化能力。
  • 关键思路
    Pippo模型的关键思路在于它是一个多视角扩散Transformer,能够在无需额外输入(如参数化模型或相机参数)的情况下生成高质量的多视角视频。与现有研究相比,Pippo通过预训练、中期训练和后期训练三个阶段逐步提升其生成能力,并引入了注意力偏置技术以在推理时生成比训练过程中更多的视图,这是一大创新。
  • 其它亮点
    论文的亮点包括:1) 提出了一个新颖的多视角扩散Transformer架构;2) 引入了注意力偏置技术,使得推理时可以生成更多视图;3) 设计了一种改进的3D一致性评估指标;4) 使用了大规模无标注图像数据集进行预训练,并结合工作室捕捉的人体数据进行微调。此外,作者还开源了部分代码,为后续研究提供了基础。
  • 相关研究
    最近在这个领域,相关的研究还包括:《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》, 《PiGAN: Generative Adversarial Networks for 3D-Aware Image Synthesis》 和 《ECCV 2022 - Learning to Reconstruct People in Clothing from a Single Image》。这些研究主要集中在使用神经辐射场、对抗生成网络等方法来实现从单张图片到3D场景或人体的重建。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论