A Density-Guided Temporal Attention Transformer for Indiscernible Object Counting in Underwater Video

简介

密集物体计数或人群计数在视觉领域的最新发展方面已经取得了长足的进步。然而，对于旨在计算与其周围环境混合的目标数量的不可辨识对象计数来说，一直是一个挑战。基于图像的物体计数数据集已经成为当前公开可用数据集的主流。因此，我们提出了一个名为YoutubeFish-35的大规模数据集，其中包含35个高清视频序列，每秒高帧率，并在各种场景中标注了超过150,000个中心点。为了进行基准测试，我们选择了三种主流的密集物体计数方法，并在新收集的数据集上进行了仔细评估。我们提出了TransVidCount，这是一个新的强大基准，它将密度和回归分支结合在统一的时间域框架中，并可以有效地处理不可辨识对象计数，在YoutubeFish-35数据集上具有最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：本论文旨在解决难以区分的对象计数问题，提出了一个新的大规模数据集YoutubeFish-35，并提出了一个新的强基线模型TransVidCount。
关键思路

关键思路：TransVidCount是一个结合密度和回归分支的统一框架，通过时间域来有效地解决难以区分的对象计数问题。
其它亮点

其他亮点：论文提出的YoutubeFish-35数据集包含了高清视频序列和超过150,000个标注中心点，用于评估三种主流的密集对象计数方法。论文提出的TransVidCount模型在YoutubeFish-35数据集上表现出了最先进的性能。论文还提供了开源代码。
相关研究

相关研究：在最近的研究中，一些研究者提出了不同的方法来解决对象计数问题，如CSRNet、SANet和CAN等。

A Density-Guided Temporal Attention Transformer for Indiscernible Object Counting in Underwater Video

提问交流

提问交流