The Pitfalls of Memorization: When Memorization Hurts Generalization

2024年12月10日
  • 简介
    神经网络通常会学习简单的解释,这些解释适用于大多数数据,同时记忆那些偏离这些解释的例外情况。这种行为会导致泛化能力差,尤其是当学到的解释依赖于虚假相关性时。在这项工作中,我们形式化了记忆与泛化之间的相互作用,表明虚假相关性在与记忆结合时,尤其会导致泛化能力差。记忆可以将训练损失减少到零,从而没有动力去学习稳健、可泛化的模式。为了解决这一问题,我们提出了记忆感知训练(MAT),该方法使用保留样本的预测作为记忆的信号来调整模型的输出。MAT鼓励学习跨分布不变的稳健模式,从而提高在分布变化下的泛化能力。
  • 图表
  • 解决问题
    该论文旨在解决神经网络在学习过程中过分依赖简单解释和记忆异常值的问题,导致模型在面对分布外数据时泛化能力差。这是一个长期存在的问题,但本论文特别关注了记忆与泛化之间的关系。
  • 关键思路
    论文提出了记忆感知训练(MAT),通过使用保留的数据预测作为记忆的信号来调整模型的输出概率。这一方法鼓励模型学习跨分布不变的鲁棒模式,从而提高模型在分布变化下的泛化能力。相比现有方法,MAT直接针对记忆对泛化的负面影响,提供了一种新的视角。
  • 其它亮点
    论文通过理论分析和实验证明了记忆对泛化的负面影响,并提出了一种有效的方法来缓解这一问题。实验设计包括多种数据集上的分类任务,如ImageNet、CIFAR-10等。作者还提供了开源代码,便于其他研究者复现和扩展。未来的研究可以进一步探索如何在更复杂的任务中应用MAT,以及如何结合其他技术进一步提升模型的鲁棒性。
  • 相关研究
    近期在这个领域的一些相关研究包括: 1. 'Invariant Risk Minimization' (Arjovsky et al., 2019) - 提出了一种通过最小化不同环境下的风险来提高模型泛化能力的方法。 2. 'Robustness via Curvature Regularization, and vice versa' (Bergman et al., 2019) - 探讨了曲率正则化对模型鲁棒性和泛化能力的影响。 3. 'Out-of-Distribution Generalization via Risk Extrapolation' (Huang et al., 2020) - 提出了通过风险外推来提高模型在分布外数据上的表现。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论