CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification

2024年03月14日
  • 简介
    CLIP(对比语言-图像预训练)模型在零样本图像分类和物体检测等识别问题中表现出了优异的性能。然而,由于将计数(一个回归任务)转化为识别任务的固有挑战,其计数能力仍未得到充分研究。本文针对估计人群规模这一问题,研究了CLIP在计数方面的潜力。现有的基于分类的人群计数方法存在问题,包括不当的离散化策略,这些问题阻碍了CLIP的应用并导致了次优的性能。为了解决这些挑战,我们提出了增强的分块分类(EBC)框架。与以往方法不同,EBC依赖于整数值的区间,有助于学习稳健的决策边界。在我们的模型无关的EBC框架内,我们介绍了CLIP-EBC,这是第一个完全基于CLIP的人群计数模型,能够生成密度图。对不同的人群计数数据集进行全面评估,证明了我们方法的最先进性能。特别是,EBC可以将现有模型的性能提高高达76.9%。此外,我们的CLIP-EBC模型超越了当前的人群计数方法,在上海科技部分A和部分B数据集上实现了55.0和6.3的平均绝对误差。代码将公开发布。
  • 图表
  • 解决问题
    本文旨在探究CLIP模型在人群计数方面的应用,提出了Enhanced Blockwise Classification(EBC)框架,解决了之前离散化策略不当的问题,同时提出了第一个完全基于CLIP的人群计数模型CLIP-EBC。
  • 关键思路
    EBC框架采用整数值的分段,使得模型能够学习到更健壮的决策边界,同时CLIP-EBC模型能够生成密度图,实现了在人群计数方面的最新技术。
  • 其它亮点
    论文在多个数据集上进行了全面评估,证明了EBC框架的性能优于现有模型,能够提高现有模型达到76.9%的性能;CLIP-EBC模型在ShanghaiTech part A和part B数据集上的表现也超越了当前的人群计数方法,达到了MAE分别为55.0和6.3。同时,作者将代码公开。
  • 相关研究
    近期的相关研究包括:《Counting Every Person in the Scene with Self-Supervised Splits》、《Learning to Count with Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论