HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

简介

人物图像动画涉及从角色照片生成视频，允许用户控制并释放视频和电影制作的潜力。虽然最近的方法使用高质量的训练数据产生了令人印象深刻的结果，但这些数据集的不可访问性阻碍了公正和透明的基准测试。此外，这些方法优先考虑2D人体动作，忽略了视频中摄像机动作的重要性，导致控制受限和视频生成不稳定。为了揭开训练数据的神秘面纱，我们提出了HumanVid，这是第一个专为人类图像动画量身定制的大规模高质量数据集，结合了精心制作的真实世界和合成数据。对于真实世界的数据，我们从互联网上编译了大量版权免费的真实世界视频。通过精心设计的基于规则的过滤策略，我们确保包含高质量的视频，结果是收集了20K个人类中心视频，分辨率为1080P。使用2D姿势估计器和基于SLAM的方法完成人和摄像机运动注释。对于合成数据，我们收集了2,300个版权免费的3D头像资产，以增强现有可用的3D资产。值得注意的是，我们引入了基于规则的摄像机轨迹生成方法，使合成管道能够融合多样化和精确的摄像机运动注释，这在真实世界数据中很少见。为了验证HumanVid的有效性，我们建立了一个名为CamAnimate的基准模型，即可控制摄像机的人类动画，考虑了人类和摄像机运动作为条件。通过广泛的实验，我们证明了这种简单的基线训练在我们的HumanVid上实现了控制人体姿势和摄像机运动的最先进性能，创造了一个新的基准。代码和数据将在\url{https://github.com/zhenzhiwang/HumanVid/}上公开。
图表
解决问题

解决问题：该论文旨在解决人物图像动画生成中训练数据不透明、相机运动被忽视等问题，提出了一个新的高质量数据集HumanVid，并且建立了一个考虑人和相机运动的基线模型。
关键思路

关键思路：HumanVid数据集由真实世界数据和合成数据组成，其中真实世界数据通过筛选获得高质量视频，使用2D姿态估计和SLAM方法进行人和相机运动注释；合成数据通过引入规则生成相机轨迹，增强了数据集的多样性和精确性。建立的基线模型CamAnimate考虑了人和相机运动作为条件，通过在HumanVid上的训练达到了最先进的性能。
其它亮点

其他亮点：该论文提出了一个新的高质量数据集HumanVid，并且建立了一个考虑人和相机运动的基线模型CamAnimate。实验结果表明，该模型在控制人姿态和相机运动方面具有最先进的性能。该数据集和代码将公开发布。
相关研究

相关研究：在这个领域的相关研究包括使用高质量数据集进行人物图像动画生成的研究，以及考虑相机运动的研究。其中，一些相关论文包括：“Everybody Dance Now”和“Deep Video Portraits”。

HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

评论