- 简介最近的基于Transformer的方法在事件驱动的目标检测任务上表现出了出色的性能,但它们高昂的计算成本仍然削弱了事件相机的低功耗优势。基于图像的方法试图通过引入稀疏Transformer来降低这些成本。然而,当应用于事件驱动的目标检测时,它们显示出不足的稀疏性和适应性,因为这些方法无法平衡基于令牌的稀疏化的细粒度和基于窗口的Transformer的效率,导致性能和效率降低。此外,它们缺乏场景特定的稀疏性优化,导致信息丢失和召回率降低。为了克服这些限制,我们提出了场景自适应稀疏Transformer(SAST)。SAST实现了窗口-令牌共稀疏化,显著提高了容错能力并降低了计算开销。利用创新的评分和选择模块,以及掩码稀疏窗口自注意力,SAST展示了卓越的场景感知适应性:它只关注重要的物体,并根据场景复杂度动态优化稀疏级别,保持了性能和计算成本之间的卓越平衡。评估结果表明,SAST在两个大规模事件驱动的目标检测数据集(1Mpx和Gen1)上的性能和效率均优于所有其他密集和稀疏网络。代码:https://github.com/Peterande/SAST。
-
- 图表
- 解决问题提高事件相机的物体检测性能和效率
- 关键思路提出了一种场景自适应稀疏变换器(SAST)方法,通过窗口-标记共稀疏化,结合创新的评分和选择模块,以及掩蔽稀疏窗口自注意力,实现了场景感知适应性,有效平衡了性能和计算成本
- 其它亮点SAST在两个大规模事件物体检测数据集上表现出色,优于其他密集和稀疏网络,实验数据开源
- 最近的相关研究包括基于事件相机的物体检测和稀疏变换器技术的研究,例如Sparse R-CNN、Event-RCNN和Sparse Transformers等
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流