CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation

简介

传统的二维姿态估计模型在设计上受到特定物体类别的限制，这限制了它们对预定义物体的适用性。为了克服这些限制，类别无关姿态估计（CAPE）作为一种解决方案应运而生。CAPE旨在使用统一模型促进不同物体类别的关键点定位，该模型可以从最少的注释支持图像中进行推广。最近的CAPE工作基于用户提供的支持图像上的任意关键点定义生成物体姿态。我们的工作不同于传统的CAPE方法，它们需要支持图像，而是采用基于文本的方法代替支持图像。具体而言，我们使用姿态图，其中节点表示用文本描述的关键点。这种表示利用了文本描述的抽象和图所强加的结构。我们的方法有效地打破了对称性，保留了结构并改进了遮挡处理。我们使用跨越100个类别和18,000个图像的全面数据集MP-100验证了我们的新方法。在1-shot设置下，我们的解决方案取得了显著的1.07％性能提升，建立了CAPE的新的最先进技术。此外，我们提供了文本描述注释，进一步增强了数据集的实用性以供未来研究使用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了一种基于文本描述的姿态估计方法，旨在解决传统的姿态估计模型只能适用于特定物体类别的问题。
关键思路

论文采用基于文本描述的姿态图谱来实现关键点的定位，利用文本描述的抽象性和图谱的结构来有效地打破对称性、保留结构并改善遮挡处理。
其它亮点

论文在MP-100数据集上进行了验证，并丰富了该数据集的文本描述注释，提高了其未来研究的实用性。在1-shot设置下，该方法的性能提升了1.07％，成为CAPE领域的新的state-of-the-art。同时，论文还提供了开源代码。
相关研究

最近的相关研究包括：《Category-Level Articulated Object Pose Estimation》、《Keypoint-Based One-Shot Learning for Articulated Objects》等。

CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation

提问交流

提问交流