Overtuning in Hyperparameter Optimization

2025年06月24日
  • 简介
    超参数优化(HPO)旨在找到一个最优的超参数配置(HPC),使得由此产生的模型能够很好地泛化到未见过的数据上。由于无法直接优化期望的泛化误差,通常会使用诸如留出法或交叉验证等重采样策略来估计该误差。这种方法隐含地假设:最小化验证误差可以带来更好的泛化性能。然而,由于验证误差的估计本身具有随机性,并且依赖于重采样策略,因此自然产生一个问题:在HPO过程中对验证误差的过度优化是否会导致类似模型训练中经验风险最小化所引发的过拟合现象?在本文中,我们研究了这一现象,并将其称为“overtuning”(过度调参),这是一种专属于HPO过程的过拟合形式。尽管这一问题具有重要的实际意义,但在HPO与AutoML相关文献中却鲜有关注。我们为“overtuning”提供了正式定义,并将其与其他相关概念(如元过拟合 meta-overfitting)区分开来。随后,我们对大量HPO基准数据进行了重新分析,以评估“overtuning”的普遍程度和严重程度。我们的研究结果显示,“overtuning”比以往认为的更加常见,通常程度较轻,但有时也可能非常严重。在约10%的情况下,“overtuning”导致选中的看似最优的HPC其实际泛化误差甚至比默认配置或首次尝试的配置还要差。我们进一步分析了诸如性能指标、重采样策略、数据集大小、学习算法以及HPO方法等因素如何影响“overtuning”,并探讨了可能的缓解策略。我们的研究结果强调了提高对“overtuning”现象认识的重要性,尤其是在小样本数据场景下,也表明有必要进一步研究更有效的缓解方法。
  • 图表
  • 解决问题
    论文探讨了超参数优化(HPO)过程中可能出现的“过度调参”(overtuning)问题,即对验证误差的过度优化可能导致最终模型在未知数据上的泛化性能下降。这个问题在HPO和AutoML领域中长期被忽视,尽管其实际影响可能非常显著。
  • 关键思路
    作者正式定义了overtuning这一现象,并通过大规模重新分析HPO基准数据来评估其普遍性和严重程度。与以往研究不同,本文强调了验证误差估计的随机性及其对最终模型选择的影响,指出即使在标准实践下也可能发生严重的overtuning。
  • 其它亮点
    {实验基于大量HPO基准数据,覆盖多种算法、数据集和超参数优化方法,具有广泛代表性。,结果显示,在约10%的情况下,经过优化选出的“最优”超参数配置泛化性能甚至不如默认或初始配置。,分析了影响overtuning的因素,包括性能指标、重采样策略、数据集大小、学习算法和HPO方法。,提出了缓解策略并呼吁在小数据场景中加强对overtuning的关注。,该研究为未来HPO方法的设计提供了新的视角和警示。}
  • 相关研究
    {"《Random Search for Hyper-Parameter Optimization》by Bergstra & Bengio (2012)","《Bayesian Optimization is Superior to Random Search for Machine Learning Hyperparameter Tuning》by Thornton et al. (2013)","《Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization》by Li et al. (2017)","《AutoML: Methods, Sytems, Challenges》by Hutter et al. (2019)","《On the dangers of cross-validation. An experimental evaluation of regularization in automated machine learning》by Candel and Parmar (2016)","《Meta-Overfitting in Automated Machine Learning} by previous studies on overfitting at the meta-level"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论