Scene Adaptive Sparse Transformer for Event-based Object Detection

简介

最近的基于Transformer的方法在事件驱动的目标检测任务上表现出了出色的性能，但它们高昂的计算成本仍然削弱了事件相机的低功耗优势。基于图像的方法试图通过引入稀疏Transformer来降低这些成本。然而，当应用于事件驱动的目标检测时，它们显示出不足的稀疏性和适应性，因为这些方法无法平衡基于令牌的稀疏化的细粒度和基于窗口的Transformer的效率，导致性能和效率降低。此外，它们缺乏场景特定的稀疏性优化，导致信息丢失和召回率降低。为了克服这些限制，我们提出了场景自适应稀疏Transformer（SAST）。SAST实现了窗口-令牌共稀疏化，显著提高了容错能力并降低了计算开销。利用创新的评分和选择模块，以及掩码稀疏窗口自注意力，SAST展示了卓越的场景感知适应性：它只关注重要的物体，并根据场景复杂度动态优化稀疏级别，保持了性能和计算成本之间的卓越平衡。评估结果表明，SAST在两个大规模事件驱动的目标检测数据集（1Mpx和Gen1）上的性能和效率均优于所有其他密集和稀疏网络。代码：https://github.com/Peterande/SAST。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

提高事件相机的物体检测性能和效率

关键思路

提出了一种场景自适应稀疏变换器（SAST）方法，通过窗口-标记共稀疏化，结合创新的评分和选择模块，以及掩蔽稀疏窗口自注意力，实现了场景感知适应性，有效平衡了性能和计算成本

其它亮点

SAST在两个大规模事件物体检测数据集上表现出色，优于其他密集和稀疏网络，实验数据开源

Scene Adaptive Sparse Transformer for Event-based Object Detection

提问交流

提问交流