每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data
Matthias Gerstgrasser ,
Rylan Schaeffer ,
Apratim Dey ,
...
2024年04月01日
随着生成模型的不断涌现,加上在网络规模数据上的预训练,一个及时的问题浮现:当这些模型用自己生成的输出进行训练时会发生什么?最近的研究发现,模型和数据之间的反馈循环可能导致模型崩溃,即性能随着每次模型拟合迭代而逐渐降低,直到最新的模型变得无用。然而,最近几篇研究模型崩溃的论文假设新数据随时间取代旧数据,而不是假设数据随时间积累。在本文中,我们比较这两种情况,并表明积累数据可以防止模型崩溃。我们首先研究一个分析可追踪的设置,其中一系列线性模型适合于之前模型的预测。以前的工作表明,如果数据被替换,测试误差随着模型拟合迭代次数的增加呈线性增长;我们通过证明,如果数据积累,测试误差具有独立于迭代次数的有限上界来扩展这个结果。接下来,我们通过在文本语料库上预训练语言模型序列来实验性地测试积累数据是否同样可以防止模型崩溃。我们证实,替换数据确实会导致模型崩溃,然后证明积累数据可以防止模型崩溃;这些结果适用于各种模型大小、架构和超参数。我们进一步展示,在真实数据上,类似的结果也适用于其他深度生成模型:用于分子生成的扩散模型和用于图像生成的变分自编码器。我们的工作提供了一致的理论和实证证据,证明了数据积累可以缓解模型崩溃。
614
热度
ML
AI
NLP
PDF
解读
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
Zhenzhi Wang ,
Yixuan Li ,
Yanhong Zeng ,
...
2024年07月24日
人物图像动画涉及从角色照片生成视频,允许用户控制并释放视频和电影制作的潜力。虽然最近的方法使用高质量的训练数据产生了令人印象深刻的结果,但这些数据集的不可访问性阻碍了公正和透明的基准测试。此外,这些方法优先考虑2D人体动作,忽略了视频中摄像机动作的重要性,导致控制受限和视频生成不稳定。为了揭开训练数据的神秘面纱,我们提出了HumanVid,这是第一个专为人类图像动画量身定制的大规模高质量数据集,结合了精心制作的真实世界和合成数据。对于真实世界的数据,我们从互联网上编译了大量版权免费的真实世界视频。通过精心设计的基于规则的过滤策略,我们确保包含高质量的视频,结果是收集了20K个人类中心视频,分辨率为1080P。使用2D姿势估计器和基于SLAM的方法完成人和摄像机运动注释。对于合成数据,我们收集了2,300个版权免费的3D头像资产,以增强现有可用的3D资产。值得注意的是,我们引入了基于规则的摄像机轨迹生成方法,使合成管道能够融合多样化和精确的摄像机运动注释,这在真实世界数据中很少见。为了验证HumanVid的有效性,我们建立了一个名为CamAnimate的基准模型,即可控制摄像机的人类动画,考虑了人类和摄像机运动作为条件。通过广泛的实验,我们证明了这种简单的基线训练在我们的HumanVid上实现了控制人体姿势和摄像机运动的最先进性能,创造了一个新的基准。代码和数据将在\url{https://github.com/zhenzhiwang/HumanVid/}上公开。
168
热度
CV
AI
ML
PDF
解读