Depth-aware Test-Time Training for Zero-shot Video Object Segmentation

简介

这篇文章介绍了一种叫做零样本视频对象分割（ZSVOS）的技术，目的是在没有任何人工标注的情况下分割主要运动物体。目前主流的解决方案主要集中在学习大规模视频数据集上的单一模型，但这些模型往往难以推广到未见过的视频。为了解决这个问题，本文引入了一种测试时训练（TTT）策略。我们的关键洞见是在TTT过程中强制模型预测一致的深度。具体来说，我们首先训练一个单一网络来执行分割和深度预测任务。这可以通过我们专门设计的深度调制层有效地学习。然后，在TTT过程中，通过在不同的数据增强下预测相同帧的一致深度图来更新模型。此外，我们还探索了不同的TTT权重更新策略。实验结果表明，基于动量的权重初始化和基于循环的训练方案可以带来更稳定的改进。实验表明，所提出的方法在ZSVOS上取得了明显的改进。我们提出的视频TTT策略比最先进的TTT方法具有显著的优越性。我们的代码可在以下网址找到：https://nifangbaage.github.io/DATTT。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：该论文旨在解决零样本视频物体分割（ZSVOS）中模型泛化性能差的问题，提出了一种测试时间训练（TTT）策略。
关键思路

关键思路：论文提出的关键思路是通过测试时间训练（TTT）过程中，强制模型预测一致的深度图以提高泛化性能，该过程由特定设计的深度调制层实现。
其它亮点

其他亮点：论文的实验结果表明，动量初始化和循环训练方案可以提高模型性能，该方法在ZSVOS上取得了明显的改进。论文提出的视频TTT策略相比现有的TTT方法具有显著的优势。论文代码已经公开。
相关研究

相关研究：最近的相关研究包括“Learning to Segment Every Thing”和“Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks”。

Depth-aware Test-Time Training for Zero-shot Video Object Segmentation

提问交流

提问交流