Adaptive Stochastic Weight Averaging

2024年06月27日
  • 简介
    集成模型通常可以提高在挑战性任务中的泛化性能。然而,基于预测平均的传统技术存在三个已知的缺点:训练多个模型的计算开销、测试时的增加的延迟和内存需求。为了解决这些问题,随机权重平均(SWA)技术从特定时期开始维护模型参数的运行平均值。尽管它具有潜在的优点,但维护参数的运行平均值可能会妨碍泛化性能,因为底层的运行模型开始过拟合。相反,选择不当的起始点可能会使SWA比底层的运行模型更容易发生欠拟合。在这项工作中,我们提出了自适应随机权重平均(ASWA)技术,它仅在验证数据集上的泛化性能改善时更新模型参数的运行平均值。因此,ASWA可以被看作是SWA和早停技术的结合,前者接受所有参数集成模型的更新,后者拒绝底层运行模型的任何更新。我们进行了广泛的实验,涵盖了从图像分类到知识图谱上的多跳推理的各种任务。我们在11个基准数据集上进行了实验,使用了7个基线模型,结果表明ASWA在模型和数据集上都能够实现统计上更好的泛化。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决集成模型的计算开销、延迟和内存需求等问题,提出了自适应随机权重平均(ASWA)技术,以提高模型的泛化性能。
  • 关键思路
    ASWA技术更新模型参数的运行平均值,只有在验证数据集上的泛化性能得到改善时才进行更新,从而结合了SWA和早停技术的优点。
  • 其它亮点
    论文在11个基准数据集上进行了广泛的实验,包括图像分类和知识图谱上的多跳推理等任务。实验结果表明,ASWA技术在模型和数据集上都能够实现更好的泛化性能。
  • 相关研究
    该论文提到了传统的集成学习方法和SWA技术,并与其他相关研究进行了比较。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问