准确的动物姿态估计是理解动物行为的关键,它为诸如野生动物保护之类的许多下游任务创造了基础。先前的工作只包含了有限的动物种类,忽略了动物的多样性,这限制了神经网络的泛化能力。最近,京东探索研究院联合西安电子科技大学、悉尼大学提出了AP-10K[1]:第一个大规模的哺乳动物姿态数据集。AP-10K中包含大约1万张标记有姿态信息的哺乳动物图片,这些图片从生物学的角度,又被归纳为23科,54个物种。我们在该数据集的基础上研究了动物姿态估计问题,研究的问题包括:有监督学习下的动物姿态估计;人体姿态估计和动物姿态估计模型的迁移性能;属于同科的物种和不同科之间的物种与泛化性能的关系等。这些实验有力地证明了动物多样性对有监督姿态估计问题带来的准确率和泛化能力的提升。AP-10K数据集为动物姿态估计的未来研究开辟了新的方向。目前AP-10K数据集已经集成到mmpose框架

下图展示了AP-10K数据集的特点(表2)和动物种类分布(图3)。由图中可以看出,AP-10K数据集不论是在动物种类还是在标记数量均具有显著优势。值得一提的,AP-10K数据集的标记图片具有长尾分布的特点,比如对于猫科(Felidae)来说,一共有10个标记物种,1913张标记图片。而河狸科只包含1个物种,178张标记图片。这些特性对于小样本学习、零样本学习或者元学习等研究方向是很有意义的。

论文链接:https://openreview.net/forum?id=rH8yliN6C83

AP-10K数据集下载地址: https://github.com/AlexTheBad/AP-10K

内容中包含的图片若涉及版权问题,请及时与我们联系删除