延世大学 | IFC：使用帧间通信Transformer的视频实例分割

论文标题：Video Instance Segmentation using Inter-Frame Communication Transformers

作者单位：延世大学 & Adobe研究院

表现SOTA！性能优于MaskProp、VisTR (CVPR 2021)等网络，速度高达107 FPS！代码即将开源！

我们提出了一种基于Transformer的新型视频实例分割（VIS）端到端解决方案。最近，与利用来自多个帧的更丰富信息的每帧方法相比， per-clip pipeline显示出优越的性能。然而，以前的 per-clip 模型需要大量的计算和内存使用来实现帧到帧的通信，限制了实用性。在这项工作中，我们提出了帧间通信Transformer (IFC)，它通过有效地编码输入剪辑中的上下文，显著减少了帧之间信息传递的开销。具体来说，我们提出使用简洁的记忆token作为传达信息以及总结每个帧场景的手段。通过精确编码的记忆token之间的信息交换，每个帧的特征都得到丰富并与其他帧相关联。我们在最新的基准测试集上验证了我们的方法，并获得了最先进的性能（YouTube-VIS 2019 验证集上的 AP 44.6 使用离线推理），同时具有相当快的运行时间（89.4 FPS）。我们的方法也可以应用于近乎在线的推理，以实时处理视频，只有很小的延迟。该代码将可用。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

延世大学 | IFC：使用帧间通信Transformer的视频实例分割

评论列表

评论