SeqFormer：简单且强大的Transformer视频实例分割模型

本文提出了一种用于视频实例分割的高效Transformer架构，名为 SeqFormer，它独立地对每一帧执行注意力机制，并为每个视频级实例学习一个共享的强大实例查询，表现SOTA！性能优于IFC、MaskProp等网络，代码将开源。

SeqFormer 遵循视觉Transformer的原理，对视频帧之间的实例关系进行建模。尽管如此，我们观察到独立的实例查询足以捕获视频中实例的时间序列，但注意力机制应该独立于每一帧完成。

为了实现这一点，SeqFormer 在每一帧中定位一个实例并聚合时间信息以学习视频级实例的强大表示，用于动态预测每一帧上的掩码序列。实例跟踪自然实现，无需跟踪分支或后处理。

内容中包含的图片若涉及版权问题，请及时与我们联系删除