- 简介这篇文章挑战了机器学习中广泛流传的一种说法,即在二分类任务中,针对类别不平衡问题,精确率-召回率曲线下的面积(AUPRC)比受试者工作特征曲线下的面积(AUROC)更适合于模型比较。通过新颖的数学分析,本文说明AUROC和AUPRC可以用概率术语简洁地相关联。我们证明了AUPRC并不像普遍认为的那样在类别不平衡的情况下优越,甚至可能会是一种有害的度量标准,因为它倾向于不合理地偏向于改进正例标签更频繁的子群体的模型。这种偏见可能会无意中加剧算法的不平等现象。在这些洞见的推动下,我们对现有的机器学习文献进行了彻底的审查,利用大型语言模型分析了arXiv上的150万篇论文。我们的研究重点是探究所谓的AUPRC优越性的普遍性和证明。结果显示,实证支持存在显著的不足,而且存在误导性的归因趋势,这些误导性的归因加剧了AUPRC的广泛认可。我们的发现具有双重意义:对度量标准行为的技术进步的显著贡献和对机器学习社区未经检查的假设的严重警告。所有实验都可以在https://github.com/mmcdermott/AUC_is_all_you_need上访问。
- 图表
- 解决问题本文试图挑战机器学习领域广泛存在的观点,即精度-召回率曲线下面积(AUPRC)在处理类别不平衡的二分类任务中比受试者工作特征曲线下面积(AUROC)更优。作者试图证明AUROC与AUPRC可以通过概率术语简洁地相关联,并且AUPRC在类别不平衡的情况下并不比AUROC更优秀,甚至可能是有害的指标。
- 关键思路本文通过数学分析证明AUROC与AUPRC可以简洁地相关联,AUPRC在类别不平衡的情况下并不比AUROC更优秀,甚至可能是有害的指标,因为它倾向于过度偏向于改善正标签更频繁的子群体,从而可能增加算法的不公平性。
- 其它亮点本文对现有的机器学习文献进行了彻底的审查,利用大型语言模型分析了来自arXiv的超过150万篇论文。结果显示,AUPRC的优越性缺乏实证支持,并且存在误归因的趋势,这些误归因推动了AUPRC的广泛接受。作者提供了实验代码,并呼吁机器学习社区对假设进行更加严格的检验。
- 与本文相关的研究包括:1.《A systematic study of the class imbalance problem in convolutional neural networks》;2.《An empirical study of evaluation metrics for machine learning based text classification》;3.《On the choice of AUC vs. accuracy for binary classification using imbalanced data》等。
沙发等你来抢
去评论
评论
沙发等你来抢