Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection

简介

测试时间适应（TTA）是一种应对机器学习模型在分布转移下鲁棒性问题的有希望的策略，它在推理期间通过不使用任何标签来调整模型。由于任务难度，超参数强烈影响适应的有效性。然而，文献对最优超参数选择提供的探索很少。在这项工作中，我们通过使用基于代理的hp选择策略（不假设访问测试标签）评估现有的TTA方法，以获得更真实的性能评估。我们展示了一些最近的最先进的方法在使用我们更真实的评估设置时表现出比以前的算法更差的性能。此外，我们展示了遗忘在TTA中仍然是一个问题，因为唯一一个在hp选择方面鲁棒的方法在每一步将模型重置为初始状态。我们分析了不同类型的无监督选择策略，虽然它们在大多数情况下表现得相当好，但唯一表现一致良好的策略使用某种监督（通过有限数量的注释测试样本或使用预训练数据）。我们的发现强调了进一步研究的需要，通过明确陈述模型选择策略来进行更严格的基准测试，为此我们开源了我们的代码。
图表
解决问题

本文旨在通过使用代理模型的超参数选择策略，对现有的TTA方法进行评估，以获得更真实的性能评估，并解决TTA中的遗忘问题。
关键思路

本文使用代理模型的超参数选择策略来评估现有的TTA方法，并发现一些最新的方法在更真实的评估环境下表现不佳。同时，本文分析了不同类型的无监督选择策略，并发现只有使用某种形式的监督才能在所有情况下工作得很好。
其它亮点

本文的实验设计使用了多个数据集，并开源了代码。此外，本文发现TTA中的遗忘问题仍然存在。本文的发现表明需要进一步研究更严格的基准测试，并明确模型选择策略。
相关研究

最近在这个领域中，一些相关的研究包括：'Adversarial Robustness through Local Linearization'，'Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference'，'Learning to Continually Learn'等。

Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection

评论