- 简介目标计数对于理解场景的组成至关重要。以前,这项任务主要由特定类别的方法主导,逐渐演变为更适应各种类别的策略。然而,这些策略也有自己的局限性,例如需要手动输入实例和多次通过多个类别,导致显著的低效率。本文介绍了一种新的、更实用的方法,使用开放词汇框架实现多个目标类别的同时计数。我们的解决方案——OmniCount,通过使用预训练模型的语义和几何见解,可以在没有额外训练的情况下计数用户指定的多个目标类别。OmniCount通过生成精确的对象掩码和利用Segment Anything模型的点提示来实现高效计数,脱颖而出。为了评估OmniCount,我们创建了OmniCount-191基准测试,这是一个首创的数据集,包括多标签对象计数、点、边界框和VQA注释。我们在OmniCount-191以及其他领先的基准测试中进行了全面的评估,证明了OmniCount的卓越性能,明显超过现有的解决方案,标志着目标计数技术的新时代的到来。
- 图表
- 解决问题本文旨在解决同时计数多个物体类别的问题,并提出了一种实用的方法,可以在开放词汇框架下利用预训练模型的语义和几何洞察力来进行多类别物体计数,无需额外的训练。
- 关键思路本文提出了一种名为OmniCount的解决方案,利用预训练模型的语义和几何洞察力,通过生成精确的物体掩模和利用点提示来实现有效计数。
- 其它亮点本文的亮点包括使用Segment Anything模型进行点提示,创建了一个名为OmniCount-191的数据集,该数据集包含多标签物体计数、点、边界框和VQA注释,并在OmniCount-191数据集上进行了全面评估,同时还与其他领先的基准进行了比较,表现出优异的性能。
- 最近的相关研究包括基于类特定方法的物体计数和更灵活的类不可知策略,但这些方法都存在一些限制。
沙发等你来抢
去评论
评论
沙发等你来抢