- 简介我们提出了一种名为MASA的新方法,用于学习强健的实例关联,能够在不需要跟踪标签的情况下匹配视频中的任何对象,并跨越不同领域进行匹配。该方法利用“Segment Anything Model”(SAM)的丰富对象分割信息,通过详尽的数据转换学习实例级别的对应关系。我们将SAM的输出视为密集的对象区域提议,并学习从庞大的图像集合中匹配这些区域。我们还设计了一个通用的MASA适配器,可以与基础分割或检测模型配合使用,并使它们能够跟踪任何检测到的对象。这些组合在复杂领域中呈现出强大的零样本跟踪能力。在多个具有挑战性的MOT和MOTS基准测试中进行了广泛测试,结果表明,仅使用未标记的静态图像,该方法在零样本关联方面的表现甚至优于使用完全注释的领域内视频序列训练的最先进方法。项目页面:https://matchinganything.github.io/
-
- 图表
- 解决问题解决问题:论文试图解决什么问题,或者验证什么假设?这是否是一个新问题?
- 关键思路关键思路:论文中解决问题的方案关键思路是什么?相比当前这个领域的研究状况,这篇论文的思路有什么新意?
- 其它亮点其他亮点:论文提出了一种新的多目标跟踪方法MASA,利用Segment Anything Model (SAM)的对象分割结果进行实例级别的对应学习,通过数据变换学习匹配不同领域的视频中的任何对象。论文设计了一个通用的MASA适配器,可以与基础分割或检测模型配合使用,实现对任何检测到的对象的跟踪。在多个具有挑战性的MOT和MOTS基准测试上进行了广泛测试,结果表明该方法仅使用未标记的静态图像,即可实现比使用完全注释的同领域视频序列训练的最先进方法更好的零样本关联。
- 相关研究:最近在这个领域中,还有哪些相关的研究被进行?能否列举一些相关研究的论文标题?
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流