- 简介目标计数对于理解场景的组成至关重要。以前,这项任务由特定类别的方法主导,逐渐演变为更适应不同类别的策略。然而,这些策略也有自己的限制,例如需要手动输入示例和多次通过多个类别,导致显着的低效率。本文介绍了一种新的、更实用的方法,利用开放词汇框架实现多个对象类别的同时计数。我们的解决方案 OmniCount 通过使用预训练模型的语义和几何见解,按照用户指定的多个对象类别进行计数,而无需额外的训练。OmniCount 通过生成精确的对象掩码,并利用分段任何模型的点提示实现高效计数,从而脱颖而出。为了评估 OmniCount,我们创建了 OmniCount-191 基准数据集,这是一种首创的多标签对象计数数据集,包括点、边界框和 VQA 注释。在 OmniCount-191 中的全面评估以及其他领先的基准测试中,证明了 OmniCount 的出色性能,显著超越了现有的解决方案,标志着目标计数技术的一个新时代。
-
- 图表
- 解决问题OmniCount试图解决的问题是同时计数多个物体类别的需求,以及传统方法需要手动输入示例和多次计数的低效率问题。
- 关键思路OmniCount使用开放词汇框架,利用预训练模型的语义和几何见解,实现用户指定的多个物体类别的同时计数,无需额外训练。OmniCount通过生成精确的物体掩模和利用Segment Anything Model的点提示来实现高效计数。
- 其它亮点OmniCount-191数据集是首个包含多标签物体计数、点、边界框和VQA注释的数据集,OmniCount在该数据集上的综合评估表现出色,明显优于现有解决方案。
- 在这个领域中,最近的相关研究包括:'Object Counting With Transformer'、'Count-ception: Counting by Fully Convolutional Redundant Counting'和'Counting Everyday Objects in Everyday Scenes'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流