图片

论文链接:https://arxiv.org/pdf/2301.00394.pdf

人体解析旨在将图像或视频中的人体分割成多个像素级的语义部分。在过去的十年中,它在计算机视觉社区中获得了极大的兴趣,并在广泛的实际应用中得到了应用,从安全监控到社交媒体,再到视觉特效,这只是其中的一小部分。尽管基于深度学习的人工解析方案已经取得了显著的成就,但许多重要的概念、存在的挑战和潜在的研究方向仍然令人困惑。全面回顾了单人体解析、多人体解析和视频人体解析这3个核心子任务,介绍了它们各自的任务设置、背景概念、相关问题和应用、代表性文献和数据集。还在基准数据集上对所审查的方法进行了定量的性能比较。此外,为了促进社区的可持续发展,提出了基于Transformer的人体解析框架,通过通用、简洁和可扩展的解决方案,为后续研究提供了高性能的基线。最后,指出了该领域一些未被充分研究的开放问题,并提出了未来研究的新方向。我们还提供定期更新的项目页面,以持续跟踪这个快速发展的领域的最新发展:https://github.com/soeaver/awesome-human-parsing。

内容中包含的图片若涉及版权问题,请及时与我们联系删除