本文提出CSWinTT:一种用于视觉目标跟踪的具有多尺度循环移位窗口注意力的新Transformer架构,将注意力从像素提升到窗口级别,表现SOTA!性能优于STARK、TransT等网络,代码刚刚开源!

论文链接:https://arxiv.org/pdf/2205.03806.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除