AI热门论文

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

Vikram Voleti ,

2024年07月24日

我们提出了稳定的视频4D（SV4D），这是一个潜在的视频扩散模型，用于多帧和多视角一致的动态3D内容生成。与之前依赖于分别训练的视频生成模型和新视角合成的方法不同，我们设计了一个统一的扩散模型，用于生成动态3D对象的新视角视频。具体而言，给定一个单目参考视频，SV4D为每个视频帧生成新视角，这些新视角在时间上是一致的。然后，我们使用生成的新视角视频来高效地优化隐式4D表示（动态NeRF），而无需使用大多数先前工作中使用的繁琐的SDS优化。为了训练我们的统一新视角视频生成模型，我们从现有的Objaverse数据集中筛选了一个动态3D对象数据集。多个数据集和用户研究的广泛实验结果表明，与先前的工作相比，SV4D在新视角视频合成以及4D生成方面具有最先进的性能。

474

CV

PDF

解读

3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities

2024年07月24日

3D高斯喷洒（3DGS）已成为一种具有潜力成为3D表示主流方法的突出技术。它可以通过有效的训练，将多视图图像转换为明确的3D高斯表示，并实现新视图的实时渲染。本文旨在从多个交叉的角度分析现有的与3DGS相关的工作，包括相关任务、技术、挑战和机遇。主要目标是为新手提供快速了解该领域的方法，并协助研究人员有条理地组织现有技术和挑战。具体而言，我们深入探讨了3DGS的优化、应用和扩展，并根据其重点或动机进行分类。此外，我们总结和分类了现有作品中识别出的九种技术模块和相应的改进。基于这些分析，我们进一步研究了各种任务中的共同挑战和技术，并提出了潜在的研究机会。

189

CV

PDF

解读

HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation

2024年07月24日

人物图像动画涉及从角色照片生成视频，允许用户控制并释放视频和电影制作的潜力。虽然最近的方法使用高质量的训练数据产生了令人印象深刻的结果，但这些数据集的不可访问性阻碍了公正和透明的基准测试。此外，这些方法优先考虑2D人体动作，忽略了视频中摄像机动作的重要性，导致控制受限和视频生成不稳定。为了揭开训练数据的神秘面纱，我们提出了HumanVid，这是第一个专为人类图像动画量身定制的大规模高质量数据集，结合了精心制作的真实世界和合成数据。对于真实世界的数据，我们从互联网上编译了大量版权免费的真实世界视频。通过精心设计的基于规则的过滤策略，我们确保包含高质量的视频，结果是收集了20K个人类中心视频，分辨率为1080P。使用2D姿势估计器和基于SLAM的方法完成人和摄像机运动注释。对于合成数据，我们收集了2,300个版权免费的3D头像资产，以增强现有可用的3D资产。值得注意的是，我们引入了基于规则的摄像机轨迹生成方法，使合成管道能够融合多样化和精确的摄像机运动注释，这在真实世界数据中很少见。为了验证HumanVid的有效性，我们建立了一个名为CamAnimate的基准模型，即可控制摄像机的人类动画，考虑了人类和摄像机运动作为条件。通过广泛的实验，我们证明了这种简单的基线训练在我们的HumanVid上实现了控制人体姿势和摄像机运动的最先进性能，创造了一个新的基准。代码和数据将在\url{https://github.com/zhenzhiwang/HumanVid/}上公开。

168

CV

AI

ML

PDF

解读

Denoising Vision Transformers

2024年01月05日

我们探讨了Vision Transformers (ViTs)中一种微妙但重要的挑战：这些模型的特征图表现出网格状伪影，这会对ViTs在下游任务中的性能产生不利影响。我们的研究将这个根本性问题追溯到输入阶段的位置嵌入。为了解决这个问题，我们提出了一种新颖的噪声模型，它适用于所有ViTs。具体而言，噪声模型将ViT的输出分解为三个部分：一个不受噪声伪影影响的语义项和两个与伪影相关的项，这些项是基于像素位置条件的。通过在每个图像基础上使用神经场强制实现跨视图特征一致性，实现了这种分解。这个每个图像的优化过程从原始的ViT输出中提取出无伪影的特征，为离线应用提供了干净的特征。为了扩展我们的解决方案以支持在线功能，我们引入了一个可学习的去噪器，直接从未经处理的ViT输出中预测无伪影的特征，这展示了对新数据的显著泛化能力，无需每个图像的优化。我们的两阶段方法称为Denoising Vision Transformers (DVT)，不需要重新训练现有的预训练ViTs，可立即应用于任何基于Transformer的架构。我们在多个代表性的ViTs（DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg）上评估了我们的方法。广泛的评估表明，我们的DVT在多个数据集上的语义和几何任务中，始终显著提高了现有的最先进的通用模型的性能（例如，+3.84 mIoU）。我们希望我们的研究能够鼓励重新评估ViT的设计，特别是关于位置嵌入的朴素使用。

119

CV

PDF

解读

MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

Anas Awadalla ,

2024年06月17日

多模态交错数据集，包括自由交错的图像和文本序列，对于训练前沿的大型多模态模型至关重要。尽管开源多模态模型的发展迅速，但大规模、多样化的开源多模态交错数据集仍然非常稀缺。为此，我们介绍了迄今为止最广泛和多样化的开源多模态交错数据集MINT-1T。MINT-1T包括一万亿个文本标记和30亿张图像，是现有开源数据集的10倍规模。此外，我们还包括了以前未被利用的来源，如PDF和ArXiv论文。由于扩展多模态交错数据集需要大量的工程努力，因此共享数据策划过程并发布数据集对社区大有裨益。我们的实验表明，在MINT-1T上训练的LMMs可以与在之前领先的数据集OBELICS上训练的模型相媲美。我们的数据和代码将在https://github.com/mlfoundations/MINT-1T上发布。

CV

ML

PDF

解读

Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

Vikash Sehwag ,

Xianghao Kong ,

2024年07月22日

随着生成型人工智能中的规模定律推动性能提升，也同时将这些模型的开发集中在具有大量计算资源的参与者中。针对文本到图像（T2I）生成模型，我们旨在通过展示大规模T2I扩散变换器模型的低成本训练来解决这一瓶颈。由于变压器的计算成本随着每个图像中补丁数量的增加而增加，因此我们建议在训练过程中随机屏蔽高达75％的图像补丁。我们提出了一种延迟屏蔽策略，使用补丁混合器对所有补丁进行预处理，然后进行屏蔽，从而显着减少了屏蔽的性能下降，使其比模型降级在减少计算成本方面更为优越。我们还结合了变换器架构的最新改进，例如使用专家混合层来提高性能，并进一步确定了在微预算训练中使用合成图像的关键好处。最后，我们仅使用3700万个公开可用的真实和合成图像，以仅1890美元的经济成本训练了一个11.6亿参数的稀疏变压器，在COCO数据集的零样本生成中实现了12.7 FID。值得注意的是，我们的模型在产生具有竞争力的FID和高质量生成的同时，产生的成本比稳定扩散模型低118倍，比当前的最先进方法低14倍，后者的成本为28,400美元。我们旨在发布我们的端到端训练流程，以进一步使微预算上的大规模扩散模型的训练民主化。

CV

AI

ML

PDF

解读

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

Taojiannan Yang ,

Huafeng Kuang ,

2024年04月11日

为了增强文本到图像扩散模型的可控性，现有的方法如ControlNet采用了基于图像的条件控制。本文揭示了现有方法在生成与图像条件控制相符的图像方面仍面临重大挑战。为此，我们提出了ControlNet++，一种新的方法，通过明确优化生成图像与条件控制之间的像素级循环一致性来提高可控性。具体而言，对于输入的条件控制，我们使用预训练的辨别奖励模型来提取生成图像的相应条件，然后优化输入条件控制与提取的条件之间的一致性损失。一种直接的实现方法是从随机噪声中生成图像，然后计算一致性损失，但这种方法需要存储多个采样时间步长的梯度，导致时间和内存成本相当大。为了解决这个问题，我们引入了一种有效的奖励策略，通过添加噪声有意干扰输入图像，然后使用单步去噪后的图像进行奖励微调。这避免了与图像采样相关的广泛成本，从而实现更高效的奖励微调。广泛的实验表明，ControlNet++在各种条件控制下显著提高了可控性。例如，对于分割掩模、线条边缘和深度条件，它们分别相对于ControlNet实现了7.9%的mIoU、13.4%的SSIM和7.6%的RMSE的改进。

CV

AI

ML

PDF

解读

Surfel-based Gaussian Inverse Rendering for Fast and Relightable Dynamic Human Reconstruction from Monocular Video

2024年07月21日

本文介绍了基于Surfel的高斯反演角色模型（SGIA）方法，该方法为可重构动态衣着人物角色模型的高效训练和渲染提供了有效的解决方案。SGIA方法通过全面建模基于物理的渲染属性，使得衣着人物角色模型在各种光照条件下都可以进行姿态操作。具体来说，我们的方法通过预积分和基于图像的光照计算，实现了快速光照计算，超越了现有的隐式技术。为了解决材质光照分离和准确几何重建的挑战，我们提出了一种创新的遮挡近似策略和逐步训练方法。大量实验表明，SGIA不仅实现了高度准确的物理属性，而且显著增强了动态人物角色模型的逼真光照效果，提供了实质性的速度优势。我们在项目页面https://GS-IA.github.io中展示了更多结果。

CV

Graph

PDF

解读

Deep Learning for Economists

2024年07月22日

深度学习提供了从大规模的非结构化文本和图像数据集中填补结构化信息的强大方法。例如，经济学家可能希望在卫星图像中检测经济活动的存在，或者测量社交媒体、国会记录或公司文件中提到的主题或实体。本文介绍了深度神经网络，涵盖了分类器、回归模型、生成AI和嵌入模型等方法。应用包括分类、文件数字化、记录链接以及用于在大规模文本和图像语料库中进行数据探索的方法。当使用适当的方法时，深度学习模型可以便宜地调整，并且可以扩展到涉及数百万或数十亿数据点的问题。该综述附带了一个伴随网站EconDL，其中包括用户友好的演示笔记本、软件资源和知识库，提供技术细节和额外的应用。

econ.GN

NLP

CV

PDF

解读

Towards Adversarially Robust Vision-Language Models: Insights from Design Choices and Prompt Formatting Techniques

Rishika Bhagwatkar ,

Shravan Nayak ,

2024年07月15日

视觉语言模型（VLMs）在研究和实际应用中都得到了大量的关注。然而，随着它们变得越来越普遍，确保它们对抗攻击的鲁棒性至关重要。本文系统地研究了模型设计选择对基于图像攻击的VLMs的对抗鲁棒性的影响。此外，我们引入了新的、成本效益高的方法来通过提示格式来增强鲁棒性。通过重新表述问题和建议潜在的对抗性扰动，我们展示了模型鲁棒性在强图像攻击（如Auto-PGD）方面的显著提高。我们的发现为开发更加鲁棒的VLMs提供了重要的指导，特别是在安全关键环境中的部署。

CV

AI

ML

PDF

解读