每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
Zhenzhi Wang ,
Yixuan Li ,
Yanhong Zeng ,
...
2024年07月24日
人物图像动画涉及从角色照片生成视频,允许用户控制并释放视频和电影制作的潜力。虽然最近的方法使用高质量的训练数据产生了令人印象深刻的结果,但这些数据集的不可访问性阻碍了公正和透明的基准测试。此外,这些方法优先考虑2D人体动作,忽略了视频中摄像机动作的重要性,导致控制受限和视频生成不稳定。为了揭开训练数据的神秘面纱,我们提出了HumanVid,这是第一个专为人类图像动画量身定制的大规模高质量数据集,结合了精心制作的真实世界和合成数据。对于真实世界的数据,我们从互联网上编译了大量版权免费的真实世界视频。通过精心设计的基于规则的过滤策略,我们确保包含高质量的视频,结果是收集了20K个人类中心视频,分辨率为1080P。使用2D姿势估计器和基于SLAM的方法完成人和摄像机运动注释。对于合成数据,我们收集了2,300个版权免费的3D头像资产,以增强现有可用的3D资产。值得注意的是,我们引入了基于规则的摄像机轨迹生成方法,使合成管道能够融合多样化和精确的摄像机运动注释,这在真实世界数据中很少见。为了验证HumanVid的有效性,我们建立了一个名为CamAnimate的基准模型,即可控制摄像机的人类动画,考虑了人类和摄像机运动作为条件。通过广泛的实验,我们证明了这种简单的基线训练在我们的HumanVid上实现了控制人体姿势和摄像机运动的最先进性能,创造了一个新的基准。代码和数据将在\url{https://github.com/zhenzhiwang/HumanVid/}上公开。
168
热度
CV
AI
ML
PDF
解读
Denoising Vision Transformers
Jiawei Yang ,
Katie Z Luo ,
Jiefeng Li ,
...
2024年01月05日
我们探讨了Vision Transformers (ViTs)中一种微妙但重要的挑战:这些模型的特征图表现出网格状伪影,这会对ViTs在下游任务中的性能产生不利影响。我们的研究将这个根本性问题追溯到输入阶段的位置嵌入。为了解决这个问题,我们提出了一种新颖的噪声模型,它适用于所有ViTs。具体而言,噪声模型将ViT的输出分解为三个部分:一个不受噪声伪影影响的语义项和两个与伪影相关的项,这些项是基于像素位置条件的。通过在每个图像基础上使用神经场强制实现跨视图特征一致性,实现了这种分解。这个每个图像的优化过程从原始的ViT输出中提取出无伪影的特征,为离线应用提供了干净的特征。为了扩展我们的解决方案以支持在线功能,我们引入了一个可学习的去噪器,直接从未经处理的ViT输出中预测无伪影的特征,这展示了对新数据的显著泛化能力,无需每个图像的优化。我们的两阶段方法称为Denoising Vision Transformers (DVT),不需要重新训练现有的预训练ViTs,可立即应用于任何基于Transformer的架构。我们在多个代表性的ViTs(DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg)上评估了我们的方法。广泛的评估表明,我们的DVT在多个数据集上的语义和几何任务中,始终显著提高了现有的最先进的通用模型的性能(例如,+3.84 mIoU)。我们希望我们的研究能够鼓励重新评估ViT的设计,特别是关于位置嵌入的朴素使用。
119
热度
CV
PDF
解读
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget
Vikash Sehwag ,
Xianghao Kong ,
Jingtao Li ,
...
2024年07月22日
随着生成型人工智能中的规模定律推动性能提升,也同时将这些模型的开发集中在具有大量计算资源的参与者中。针对文本到图像(T2I)生成模型,我们旨在通过展示大规模T2I扩散变换器模型的低成本训练来解决这一瓶颈。由于变压器的计算成本随着每个图像中补丁数量的增加而增加,因此我们建议在训练过程中随机屏蔽高达75%的图像补丁。我们提出了一种延迟屏蔽策略,使用补丁混合器对所有补丁进行预处理,然后进行屏蔽,从而显着减少了屏蔽的性能下降,使其比模型降级在减少计算成本方面更为优越。我们还结合了变换器架构的最新改进,例如使用专家混合层来提高性能,并进一步确定了在微预算训练中使用合成图像的关键好处。最后,我们仅使用3700万个公开可用的真实和合成图像,以仅1890美元的经济成本训练了一个11.6亿参数的稀疏变压器,在COCO数据集的零样本生成中实现了12.7 FID。值得注意的是,我们的模型在产生具有竞争力的FID和高质量生成的同时,产生的成本比稳定扩散模型低118倍,比当前的最先进方法低14倍,后者的成本为28,400美元。我们旨在发布我们的端到端训练流程,以进一步使微预算上的大规模扩散模型的训练民主化。
88
热度
CV
AI
ML
PDF
解读