PuzzleAvatar: Assembling 3D Avatars from Personal Albums

2024年05月23日
  • 简介
    生成个性化的3D头像对于增强现实/虚拟现实至关重要。然而,最近的文本生成3D头像方法在为名人或虚构角色生成头像时表现良好,但对于普通人却有困难。对于忠实重建的方法通常需要在受控环境下拍摄全身图像。如果用户可以上传他们的个人“OOTD”(今日穿搭)照片集并获得忠实的头像,那该怎么办呢?挑战在于这种非正式的照片集包含各种姿势、具有挑战性的视角、裁剪视图和遮挡(尽管有一致的服装、配饰和发型)。我们通过开发PuzzleAvatar来解决这个新颖的“Album2Human”任务,该模型从个人OOTD相册中生成一个忠实的3D头像(处于规范化的姿势),同时绕过了身体和相机姿势的挑战性估计。为此,我们在这些照片上微调了一个基础的视觉语言模型(VLM),将一个人的外观、身份、服装、发型和配饰编码为(分别)学习到的令牌,并将这些提示注入VLM中。实际上,我们利用学习到的令牌作为“拼图块”,从中组装出忠实的个性化3D头像。重要的是,我们可以通过简单地交换令牌来定制头像。作为这个新任务的基准,我们收集了一个名为PuzzleIOI的新数据集,其中包含41个主题的近1K个OOTD配置,以具有配对的3D人体地面真实值的具有挑战性的部分照片。评估表明,PuzzleAvatar不仅具有高重建精度,优于TeCH和MVDreamBooth,而且具有独特的相册照片可扩展性和强大的鲁棒性。我们的模型和数据将是公开的。
  • 图表
  • 解决问题
    解决问题:本文试图解决从个人照片集合中生成逼真3D头像的问题,避免了需要控制环境下拍摄全身照片的限制。
  • 关键思路
    关键思路:本文提出了PuzzleAvatar模型,利用细调的视觉语言模型对个人照片进行编码,将外观、身份、服装、发型和配饰分别编码成学习到的标记,然后将这些标记组合成逼真的3D头像。
  • 其它亮点
    其他亮点:本文提出的PuzzleAvatar模型在处理个人照片集合时具有独特的可扩展性和强大的鲁棒性,且比TeCH和MVDreamBooth等方法具有更高的重建精度。作者还提供了一个新的数据集PuzzleIOI,并公开了模型和数据。
  • 相关研究
    相关研究:近期的相关研究包括基于全身照片的头像生成方法,以及基于语言描述的头像生成方法,如《Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks》和《Learning to Generate 3D Heads from Natural Language with Adversarial Training》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论