CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation

2024年06月01日
  • 简介
    传统的二维姿态估计模型在设计上受到特定物体类别的限制,这限制了它们对预定义物体的适用性。为了克服这些限制,类别无关姿态估计(CAPE)作为一种解决方案应运而生。CAPE旨在使用统一模型促进不同物体类别的关键点定位,该模型可以从最少的注释支持图像中进行推广。最近的CAPE工作基于用户提供的支持图像上的任意关键点定义生成物体姿态。我们的工作不同于传统的CAPE方法,它们需要支持图像,而是采用基于文本的方法代替支持图像。具体而言,我们使用姿态图,其中节点表示用文本描述的关键点。这种表示利用了文本描述的抽象和图所强加的结构。我们的方法有效地打破了对称性,保留了结构并改进了遮挡处理。我们使用跨越100个类别和18,000个图像的全面数据集MP-100验证了我们的新方法。在1-shot设置下,我们的解决方案取得了显著的1.07%性能提升,建立了CAPE的新的最先进技术。此外,我们提供了文本描述注释,进一步增强了数据集的实用性以供未来研究使用。
  • 作者讲解
  • 图表
  • 解决问题
    论文提出了一种基于文本描述的姿态估计方法,旨在解决传统的姿态估计模型只能适用于特定物体类别的问题。
  • 关键思路
    论文采用基于文本描述的姿态图谱来实现关键点的定位,利用文本描述的抽象性和图谱的结构来有效地打破对称性、保留结构并改善遮挡处理。
  • 其它亮点
    论文在MP-100数据集上进行了验证,并丰富了该数据集的文本描述注释,提高了其未来研究的实用性。在1-shot设置下,该方法的性能提升了1.07%,成为CAPE领域的新的state-of-the-art。同时,论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Category-Level Articulated Object Pose Estimation》、《Keypoint-Based One-Shot Learning for Articulated Objects》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问