Sapiens: Foundation for Human Vision Models

2024年08月22日
  • 简介
    我们提出了Sapiens,这是一个用于四个基本的以人为中心的视觉任务的模型家族——2D姿态估计、身体部位分割、深度估计和表面法线预测。我们的模型原生支持1K高分辨率推理,并且非常容易通过简单地微调在超过3亿张野外人类图像上预训练的模型来适应个别任务。我们观察到,在相同的计算预算下,对人类图像的策划数据集进行自监督预训练可以显著提高各种以人为中心的任务的性能。即使标记数据稀缺或完全是合成的,所得到的模型也表现出对野外数据的显著泛化能力。我们简单的模型设计也带来了可扩展性——随着我们将参数数量从0.3亿增加到20亿,模型在各种任务上的性能得到了提高。Sapiens在各种以人为中心的基准测试中始终优于现有基线。我们在Humans-5K(姿态)上的先前最先进水平上取得了7.6 mAP的显着改进,在Humans-2K(部分分割)上取得了17.1 mIoU的显着改进,在Hi4D(深度)上相对RMSE提高了22.4%,在THuman2(法线)上相对角度误差提高了53.5%。项目页面:https://about.meta.com/realitylabs/codecavatars/sapiens。
  • 图表
  • 解决问题
    论文旨在解决四个基本的人类视觉任务,包括2D姿态估计、身体部位分割、深度估计和表面法向量预测。同时,论文试图验证自监督预训练对于提高人类中心任务性能的有效性。
  • 关键思路
    论文提出了Sapiens模型,通过在大量人类图像上进行自监督预训练,以提高四个基本人类视觉任务的性能。Sapiens模型具有良好的通用性和可扩展性,能够处理真实世界中的数据,并在多个基准测试中取得了显著的改进。
  • 其它亮点
    论文使用了超过3亿张真实世界中的人类图像进行自监督预训练,证明了自监督预训练对于提高人类中心任务性能的有效性。Sapiens模型具有良好的通用性和可扩展性,能够处理真实世界中的数据,并在多个基准测试中取得了显著的改进。论文代码和预训练模型已经公开。
  • 相关研究
    最近的相关研究包括DeepLabCut、OpenPose和Mask R-CNN等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论