Pearls from Pebbles: Improved Confidence Functions for Auto-labeling

简介

自动标注是一类重要的技术，可以最小化人工标注的标记训练集。其中一种突出的变体——基于阈值的自动标注（TBAL），通过找到模型置信度分数的阈值，可以准确地标注未标注的数据点。然而，许多模型被认为会产生过于自信的分数，导致TBAL性能不佳。虽然一个自然的想法是应用现成的校准方法来缓解过度自信的问题，但这些方法仍然不足够。我们提出了一个框架来研究最优TBAL置信函数，而不是试验置信函数的临时选择。我们开发了一个可行的版本的框架，得到了一种新的后置方法\texttt{Colander}（用于高效和可靠的自动标注的置信函数），专门设计用于在TBAL系统中最大化性能。我们对我们的方法\texttt{Colander}进行了广泛的实证评估，并将其与专为校准设计的方法进行了比较。在使用与基线相同数量的标记数据的情况下，\texttt{Colander}在覆盖率上取得了高达60\%的改进，同时保持自动标注错误率低于5\%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决TBAL（threshold-based auto-labeling）方法中模型过度自信导致性能下降的问题，提出一种新的框架和方法Colander来寻找最优的TBAL置信度函数。
关键思路

本文提出了一种新的框架来研究最优的TBAL置信度函数，并通过该框架得到了一种新的后处理方法Colander，具有高效和可靠的性能。
其它亮点

本文在多个数据集上对Colander方法进行了广泛的实验评估，并与其他校准方法进行了比较。结果表明，Colander在保持自动标注误差低于5％的同时，比基线方法提高了高达60％的覆盖率，并使用了相同数量的标记数据。
相关研究

最近在这个领域中，还有一些相关的研究，如《On Calibration of Modern Neural Networks》、《Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles》等。

Pearls from Pebbles: Improved Confidence Functions for Auto-labeling

提问交流

提问交流