- 简介变形金刚广泛应用于计算机视觉领域,并取得了显著的成功。大多数最先进的方法将图像分成规则的网格,并用一个视觉令牌表示每个网格区域。然而,固定的令牌分布忽略了不同图像区域的语义含义,导致性能不佳。为了解决这个问题,我们提出了Token Clustering Transformer (TCFormer),它基于语义含义生成动态视觉令牌。我们的动态令牌具有两个关键特征:(1)使用相似语义含义的视觉令牌来表示图像区域,即使这些区域不相邻;(2)集中于具有有价值细节的区域,并使用精细令牌来表示它们。通过在各种应用中进行广泛实验,包括图像分类、人体姿态估计、语义分割和目标检测,我们展示了我们的TCFormer的有效性。本文的代码和模型可在https://github.com/zengwang430521/TCFormer上获得。
- 图表
- 解决问题TCFormer旨在解决当前计算机视觉领域中固定的视觉令牌分布不考虑不同图像区域的语义含义,导致性能不佳的问题。
- 关键思路TCFormer提出了一种基于语义含义生成动态视觉令牌的方法,以更好地表示不同图像区域之间的关系。动态令牌具有两个关键特征:(1)使用相似的语义含义表示具有相似语义含义的图像区域,即使这些区域不相邻;(2)专注于具有有价值细节的区域,并使用精细令牌表示它们。
- 其它亮点论文的实验结果表明,TCFormer在各种应用中都取得了显著的性能提升,包括图像分类、人体姿态估计、语义分割和目标检测。作者还提供了代码和模型,方便其他研究人员使用和参考。
- 近期的相关研究包括:DETR、ViT、SETR等。
沙发等你来抢
去评论
评论
沙发等你来抢