- 简介自动标注是一类重要的技术,可以最小化人工标注的标记训练集。其中一种突出的变体——基于阈值的自动标注(TBAL),通过找到模型置信度分数的阈值,可以准确地标注未标注的数据点。然而,许多模型被认为会产生过于自信的分数,导致TBAL性能不佳。虽然一个自然的想法是应用现成的校准方法来缓解过度自信的问题,但这些方法仍然不足够。我们提出了一个框架来研究最优TBAL置信函数,而不是试验置信函数的临时选择。我们开发了一个可行的版本的框架,得到了一种新的后置方法\texttt{Colander}(用于高效和可靠的自动标注的置信函数),专门设计用于在TBAL系统中最大化性能。我们对我们的方法\texttt{Colander}进行了广泛的实证评估,并将其与专为校准设计的方法进行了比较。在使用与基线相同数量的标记数据的情况下,\texttt{Colander}在覆盖率上取得了高达60\%的改进,同时保持自动标注错误率低于5\%。
-
- 图表
- 解决问题本文试图解决TBAL(threshold-based auto-labeling)方法中模型过度自信导致性能下降的问题,提出一种新的框架和方法Colander来寻找最优的TBAL置信度函数。
- 关键思路本文提出了一种新的框架来研究最优的TBAL置信度函数,并通过该框架得到了一种新的后处理方法Colander,具有高效和可靠的性能。
- 其它亮点本文在多个数据集上对Colander方法进行了广泛的实验评估,并与其他校准方法进行了比较。结果表明,Colander在保持自动标注误差低于5%的同时,比基线方法提高了高达60%的覆盖率,并使用了相同数量的标记数据。
- 最近在这个领域中,还有一些相关的研究,如《On Calibration of Modern Neural Networks》、《Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流