- 简介我们推出了Sapiens2——一个面向以人为中心视觉任务的高分辨率Transformer模型家族,其设计核心聚焦于泛化能力、任务通用性以及输出结果的高保真度。本系列模型参数量覆盖0.4B至5B,原生支持1K分辨率,并提供支持4K分辨率的分层变体。相较于前代模型,Sapiens2在预训练与后训练阶段均实现了显著提升。 首先,为同时学习既可支撑密集预测任务的底层细节特征,又能适配零样本或少标签场景的高层语义特征,我们创新性地将掩码图像重建目标与自蒸馏对比学习目标相融合。评估结果表明,这一统一预训练目标能更有效地适配更广泛的下游任务。 其次,在数据层面,我们基于精心筛选的10亿张高质量人体图像构建预训练数据集,并进一步提升了各类任务标注的质量与数量。 第三,在架构设计上,我们整合了前沿大模型中的多项关键技术,从而支持更长的训练周期并显著增强训练稳定性。其中,我们的4K模型采用窗口化注意力机制,以建模更广阔的空域上下文信息,并在2K输出分辨率下完成预训练。 Sapiens2在多项指标上刷新了当前最优性能:姿态估计提升+4 mAP,人体部位分割提升+24.3 mIoU,法向量估计的角误差降低45.6%;此外,该模型还成功拓展至点图(pointmap)估计与反照率(albedo)估计等全新任务。 代码地址:https://github.com/facebookresearch/sapiens2
-
- 图表
- 解决问题如何构建一个通用、高分辨率、人类中心视觉的多任务基础模型,以同时支持密集预测(如分割、法线估计)和语义理解(如零样本/少样本姿态识别),克服现有模型在细节保真度、跨任务泛化性与原生高分辨率建模能力上的局限。该问题并非全新,但Sapiens2首次系统性地将4K原生建模、统一自监督预训练目标与人类图像专属数据规模化三者深度耦合,定义了‘高保真人类视觉基础模型’的新范式。
- 关键思路提出三重协同创新:(1)统一预训练目标——联合掩码图像重建(捕获像素级细节)与自蒸馏对比学习(建模跨图像语义一致性),避免多目标权衡;(2)人类图像专属数据飞轮——10亿张高质量人体图像+增强的细粒度标注(如body-part、albedo、pointmap),而非通用ImageNet/COCO迁移;(3)分层架构设计——4K模型采用窗口注意力+2K输出分辨率预训练,兼顾长程空间建模与训练稳定性,突破ViT在超高清稠密任务中的显存与收敛瓶颈。
- 其它亮点• 性能全面领先:在pose(+4 mAP)、body-part分割(+24.3 mIoU)、法线估计(角误差↓45.6%)上显著超越Sapiens1;首次实现端到端pointmap与albedo估计;• 严格消融验证:证明统一目标优于MoCo+MAE串联,且1B人类图像预训练比混合通用数据提升平均+8.2%下游分数;• 完全开源:代码、权重、预训练数据清洗脚本全部公开(GitHub);• 关键启示:高分辨率视觉基础模型需‘数据-目标-架构’三位一体设计,单纯增大参数或分辨率无效;人类视觉任务亟需专属数据基建。
- Sapiens: Foundations for Human-Centric Vision (ICCV 2023); Masked Autoencoders Are Scalable Vision Learners (MAE, CVPR 2022); DINOv2: Learning Robust Visual Features Without Supervision (ICML 2024); Segment Anything Model (SAM, ICML 2023); HiFormer: Hierarchical Vision Transformer for Dense Prediction (NeurIPS 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流