- 简介本文旨在提高图像中开放词汇物体计数的通用性和准确性。为了提高通用性,我们重新利用了一个开放词汇检测基础模型(GroundingDINO)来完成计数任务,并引入了模块以通过视觉示例来指定目标物体进行计数。这些新功能 - 能够通过多模式(文本和示例)指定目标物体 - 从而提高了计数的准确性。 我们做出了三个贡献:首先,我们介绍了第一个开放世界计数模型CountGD,其中提示可以由文本描述或视觉示例或两者组合指定;其次,我们展示了该模型在多个计数基准测试中的性能显著提高 - 仅使用文本时,CountGD与所有先前的仅文本作品相比具有可比性或更好的性能,而在同时使用文本和视觉示例时,我们超越了所有先前的模型;第三,我们进行了初步研究,探讨了文本和视觉示例提示之间的不同交互方式,包括它们相互强化和一个限制另一个的情况。代码和测试模型的应用程序可在https://www.robots.ox.ac.uk/~vgg/research/countgd/上获得。
- 图表
- 解决问题论文旨在改进图像中的开放词汇对象计数的普适性和准确性。它通过重新利用开放词汇检测基础模型(GroundingDINO)来实现目标对象的可视化示例和文本的多模式指定,以提高模型的性能。
- 关键思路CountGD是第一个开放世界计数模型,它可以通过文本描述或可视化示例或两者同时指定提示。研究表明,当使用文本和视觉示例时,CountGD的性能显著优于以前的所有模型。
- 其它亮点论文提出的CountGD模型在多个计数基准测试中表现出色,特别是在使用文本和视觉示例时。论文还进行了初步研究,探讨了文本和视觉示例提示之间的不同交互方式,包括它们相互强化和限制的情况。研究人员还提供了代码和应用程序来测试模型。
- 最近的相关研究包括:1.《Deep Counting:Visualizing Parts in Objects for Counting》;2.《Counting Everyday Objects in Everyday Scenes》;3.《Counting Out Time: Class Agnostic Video Repetition Counting in the Wild》。
沙发等你来抢
去评论
评论
沙发等你来抢