Instant 3D Human Avatar Generation using Image Diffusion Models

向作者提问

NEW

简介

我们提出了AvatarPopUp，这是一种从不同输入模态（如图像和文本提示）快速生成高质量3D人体化身并控制其生成姿势和形状的方法。其共同主题是使用针对特定任务的基于扩散的图像生成网络，接着是3D提升网络。我们有意将生成和3D建模分离开来，这使我们能够利用经过数十亿文本-图像对训练的强大图像合成先验知识。我们通过额外的图像调节来微调潜在扩散网络，以解决图像生成和背面预测等任务，并支持定性不同的多个3D假设。我们的部分微调方法允许在不引起灾难性遗忘的情况下为每个任务调整网络。在实验中，我们展示了我们的方法能够产生准确、高质量、外观多样的3D人体化身，同时尊重多模态文本、图像和身体控制信号。我们的方法可以在2秒内生成一个3D模型，与大多数现有方法相比，速度提高了四个数量级，其中大多数方法只解决我们任务的子集，并且控制较少，从而实现了需要大规模控制3D生成人体化身的应用。项目网站可在https://www.nikoskolot.com/avatarpopup/找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决快速生成高质量的3D人物头像的问题，同时支持从不同输入模态生成、控制生成的姿势和形状，这是否是一个新问题？
关键思路

该论文的关键思路是使用基于扩散的图像生成网络，针对特定任务进行专门优化，然后使用3D提取网络进行生成。将生成和3D建模分离，以便利用在数十亿个文本图像对上训练的强大图像合成先验知识。通过部分微调方法，使网络适应每个任务而不导致灾难性遗忘。
其它亮点

论文使用了大量的数据集和实验来验证其方法的有效性，并且提供了开源代码。该方法可以在2秒内生成高质量的3D模型，比现有方法快了4个数量级，并且可以控制生成的外观和姿势。该方法还支持多个3D假设，可以生成不同的外观。值得深入研究的是，该方法可以在多种输入模态下生成3D头像，这在以前的研究中并不常见。
相关研究

在最近的相关研究中，也有一些关于3D头像生成的论文，例如《PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization》和《Neural Volumes: Learning Dynamic Renderable Volumes from Images》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问