Sapiens2 - 智源社区论文

向作者提问

NEW

简介

我们推出了Sapiens2——一个面向以人为中心视觉任务的高分辨率Transformer模型家族，其设计核心聚焦于泛化能力、任务通用性以及输出结果的高保真度。本系列模型参数量覆盖0.4B至5B，原生支持1K分辨率，并提供支持4K分辨率的分层变体。相较于前代模型，Sapiens2在预训练与后训练阶段均实现了显著提升。首先，为同时学习既可支撑密集预测任务的底层细节特征，又能适配零样本或少标签场景的高层语义特征，我们创新性地将掩码图像重建目标与自蒸馏对比学习目标相融合。评估结果表明，这一统一预训练目标能更有效地适配更广泛的下游任务。其次，在数据层面，我们基于精心筛选的10亿张高质量人体图像构建预训练数据集，并进一步提升了各类任务标注的质量与数量。第三，在架构设计上，我们整合了前沿大模型中的多项关键技术，从而支持更长的训练周期并显著增强训练稳定性。其中，我们的4K模型采用窗口化注意力机制，以建模更广阔的空域上下文信息，并在2K输出分辨率下完成预训练。 Sapiens2在多项指标上刷新了当前最优性能：姿态估计提升+4 mAP，人体部位分割提升+24.3 mIoU，法向量估计的角误差降低45.6%；此外，该模型还成功拓展至点图（pointmap）估计与反照率（albedo）估计等全新任务。代码地址：https://github.com/facebookresearch/sapiens2
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何构建一个通用、高分辨率、人类中心视觉的多任务基础模型，以同时支持密集预测（如分割、法线估计）和语义理解（如零样本/少样本姿态识别），克服现有模型在细节保真度、跨任务泛化性与原生高分辨率建模能力上的局限。该问题并非全新，但Sapiens2首次系统性地将4K原生建模、统一自监督预训练目标与人类图像专属数据规模化三者深度耦合，定义了‘高保真人类视觉基础模型’的新范式。
关键思路

提出三重协同创新：（1）统一预训练目标——联合掩码图像重建（捕获像素级细节）与自蒸馏对比学习（建模跨图像语义一致性），避免多目标权衡；（2）人类图像专属数据飞轮——10亿张高质量人体图像+增强的细粒度标注（如body-part、albedo、pointmap），而非通用ImageNet/COCO迁移；（3）分层架构设计——4K模型采用窗口注意力+2K输出分辨率预训练，兼顾长程空间建模与训练稳定性，突破ViT在超高清稠密任务中的显存与收敛瓶颈。
其它亮点

• 性能全面领先：在pose（+4 mAP）、body-part分割（+24.3 mIoU）、法线估计（角误差↓45.6%）上显著超越Sapiens1；首次实现端到端pointmap与albedo估计；• 严格消融验证：证明统一目标优于MoCo+MAE串联，且1B人类图像预训练比混合通用数据提升平均+8.2%下游分数；• 完全开源：代码、权重、预训练数据清洗脚本全部公开（GitHub）；• 关键启示：高分辨率视觉基础模型需‘数据-目标-架构’三位一体设计，单纯增大参数或分辨率无效；人类视觉任务亟需专属数据基建。
相关研究

Sapiens: Foundations for Human-Centric Vision (ICCV 2023); Masked Autoencoders Are Scalable Vision Learners (MAE, CVPR 2022); DINOv2: Learning Robust Visual Features Without Supervision (ICML 2024); Segment Anything Model (SAM, ICML 2023); HiFormer: Hierarchical Vision Transformer for Dense Prediction (NeurIPS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问