- 简介我们的挑战是在不需要OOD数据的情况下,使用ID测量来预测模型的Out-of-Distribution(OOD)性能。使用ID精度作为OOD精度指标的“有效鲁棒性”现有评估在模型受到不同监督和分布(例如在ImageNet上的视觉模型(VMs)和在LAION上的视觉语言模型(VLMs)中使用类标签和文本描述)时会遇到限制。尽管VLMs的ID性能类似或更低,但它们通常比VMs更好地推广到OOD数据。为了改进从ID测量中预测模型OOD性能的方法,我们引入了最低公共祖先(LCA)-on-the-Line框架。该方法重新审视了LCA距离的概念,该距离测量预定义类层次结构(例如WordNet)内标签和预测之间的层次距离。我们使用ImageNet作为ID数据集,使用五个显著移位的OOD变体评估了75个模型,揭示了ID LCA距离和OOD top-1精度之间的强线性相关性。我们的方法为了解为什么VLMs倾向于更好地推广提供了一个有力的替代方案。此外,我们提出了一种使用K均值聚类在任何数据集上构建分类层次结构的技术,证明LCA距离对构建的分类层次结构具有鲁棒性。此外,我们证明通过软标签或提示工程将模型预测与类别分类体系对齐可以增强模型的泛化能力。我们的项目页面提供了开源代码:https://elvishelvis.github.io/papers/lca/.
- 图表
- 解决问题论文试图通过使用ID测量而不需要OOD数据来预测模型的OOD性能,解决VMs和VLMs等模型在不同监督和分布下的表现差异问题。
- 关键思路论文提出了基于最近公共祖先(LCA)距离的框架,通过测量标签和预测之间的层次距离来预测模型的OOD性能,该方法在ImageNet数据集上评估了75个模型,并发现ID LCA距离与OOD top-1准确性之间存在强线性相关性。
- 其它亮点论文提出了一种新的方法来预测模型的OOD性能,该方法不需要使用OOD数据;论文还提出了一种使用K-means聚类构建分类层次结构的技术,并证明LCA距离对构建的分类层次结构具有鲁棒性;论文还表明,通过使用软标签或提示工程将模型预测与类别分类对齐可以增强模型的泛化能力。
- 最近的相关研究包括“Effective Robustness”等使用ID准确性作为OOD准确性的指标的方法,以及使用不同的监督和分布训练的模型的泛化性能的研究,例如VMs和VLMs。
沙发等你来抢
去评论
评论
沙发等你来抢