Sapiens: Foundation for Human Vision Models

简介

我们提出了Sapiens，这是一组用于四个基本的以人为中心的视觉任务的模型，包括2D姿势估计、身体部位分割、深度估计和表面法线预测。我们的模型原生支持1K高分辨率推理，并且非常容易通过对在野人类图像预训练的模型进行微调来适应个别任务。我们观察到，在相同的计算预算下，对人类图像的策划数据进行自我监督预训练显着提高了各种以人为中心的任务的性能。即使标记数据很少或完全是合成的，所得到的模型也表现出对在野数据的显着泛化能力。我们简单的模型设计也带来了可扩展性——随着参数数量从0.3到20亿的增加，模型在各种任务上的性能都得到了提高。Sapiens始终优于各种以人为中心的基准测试。我们在Humans-5K（姿势）上的平均精度提高了7.6个百分点，在Humans-2K（部分分割）上的平均交并比提高了17.1个百分点，在Hi4D（深度）上的相对RMSE提高了22.4％，在THuman2（法线）上的相对角度误差提高了53.5％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Sapiens论文试图解决人类中心视觉任务中的四个基本问题，包括2D姿势估计、身体部位分割、深度估计和表面法线预测。同时，论文试图验证自监督预训练模型在人类中心视觉任务中的有效性。
关键思路

论文中的关键思路是使用自监督预训练模型来提高人类中心视觉任务的性能，并且通过简单的模型设计实现可扩展性。
其它亮点

论文使用了超过3亿张真实人类图像进行自监督预训练，从而提高了模型在不同数据集上的性能表现。此外，论文的模型设计简单，具有良好的可扩展性。在多个数据集上，Sapiens模型的性能都优于目前的基准模型。
相关研究

在人类中心视觉任务领域中，还有一些相关的研究，比如OpenPose、HRNet等。

Sapiens: Foundation for Human Vision Models

提问交流

提问交流