Adaptive Stochastic Weight Averaging

简介

集成模型通常可以提高在挑战性任务中的泛化性能。然而，基于预测平均的传统技术存在三个已知的缺点：训练多个模型的计算开销、测试时的增加的延迟和内存需求。为了解决这些问题，随机权重平均（SWA）技术从特定时期开始维护模型参数的运行平均值。尽管它具有潜在的优点，但维护参数的运行平均值可能会妨碍泛化性能，因为底层的运行模型开始过拟合。相反，选择不当的起始点可能会使SWA比底层的运行模型更容易发生欠拟合。在这项工作中，我们提出了自适应随机权重平均（ASWA）技术，它仅在验证数据集上的泛化性能改善时更新模型参数的运行平均值。因此，ASWA可以被看作是SWA和早停技术的结合，前者接受所有参数集成模型的更新，后者拒绝底层运行模型的任何更新。我们进行了广泛的实验，涵盖了从图像分类到知识图谱上的多跳推理的各种任务。我们在11个基准数据集上进行了实验，使用了7个基线模型，结果表明ASWA在模型和数据集上都能够实现统计上更好的泛化。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决集成模型的计算开销、延迟和内存需求等问题，提出了自适应随机权重平均（ASWA）技术，以提高模型的泛化性能。
关键思路

ASWA技术更新模型参数的运行平均值，只有在验证数据集上的泛化性能得到改善时才进行更新，从而结合了SWA和早停技术的优点。
其它亮点

论文在11个基准数据集上进行了广泛的实验，包括图像分类和知识图谱上的多跳推理等任务。实验结果表明，ASWA技术在模型和数据集上都能够实现更好的泛化性能。
相关研究

该论文提到了传统的集成学习方法和SWA技术，并与其他相关研究进行了比较。

Adaptive Stochastic Weight Averaging

提问交流

提问交流