人物图像动画涉及从角色照片生成视频,允许用户控制并释放视频和电影制作的潜力。虽然最近的方法使用高质量的训练数据产生了令人印象深刻的结果,但这些数据集的不可访问性阻碍了公正和透明的基准测试。此外,这些方法优先考虑2D人体动作,忽略了视频中摄像机动作的重要性,导致控制受限和视频生成不稳定。为了揭开训练数据的神秘面纱,我们提出了HumanVid,这是第一个专为人类图像动画量身定制的大规模高质量数据集,结合了精心制作的真实世界和合成数据。对于真实世界的数据,我们从互联网上编译了大量版权免费的真实世界视频。通过精心设计的基于规则的过滤策略,我们确保包含高质量的视频,结果是收集了20K个人类中心视频,分辨率为1080P。使用2D姿势估计器和基于SLAM的方法完成人和摄像机运动注释。对于合成数据,我们收集了2,300个版权免费的3D头像资产,以增强现有可用的3D资产。值得注意的是,我们引入了基于规则的摄像机轨迹生成方法,使合成管道能够融合多样化和精确的摄像机运动注释,这在真实世界数据中很少见。为了验证HumanVid的有效性,我们建立了一个名为CamAnimate的基准模型,即可控制摄像机的人类动画,考虑了人类和摄像机运动作为条件。通过广泛的实验,我们证明了这种简单的基线训练在我们的HumanVid上实现了控制人体姿势和摄像机运动的最先进性能,创造了一个新的基准。代码和数据将在\url{https://github.com/zhenzhiwang/HumanVid/}上公开。