Complexity Matters: Dynamics of Feature Learning in the Presence of Spurious Correlations

2024年03月05日
  • 简介
    现有研究常常将虚假特征视为神经网络优化中“更易学习”的特征,但它们相对简单的影响尚未得到充分探讨。此外,它们主要关注终端性能,而不是特征学习的学习动态。在本文中,我们提出了一个理论框架和相关的基于布尔函数分析的合成数据集,可以对虚假特征与核心特征的相对复杂度(相对于核心特征)和相关强度(相对于标签)进行细粒度控制,以研究虚假相关下的特征学习动态。我们的设置揭示了几个有趣的现象:(1)更强的虚假相关或更简单的虚假特征会降低核心特征的学习速度,(2)虚假特征和核心特征的学习阶段并不总是可分离的,(3)即使核心特征已经完全学习,虚假特征也不会被遗忘。我们展示了我们的发现支持重新训练最后一层以消除虚假相关的成功,并确定了利用虚假特征的早期学习的流行去偏算法的局限性。我们通过理论分析支持我们的实证发现,以学习具有单隐藏层ReLU网络的XOR特征为例。
  • 作者讲解
  • 图表
  • 解决问题
    研究神经网络中虚假特征对学习动态的影响,探究其相对复杂性和相关性强度对核心特征学习速度的影响。此外,研究虚假特征的学习阶段和遗忘现象。
  • 关键思路
    论文提出了一个基于布尔函数分析的理论框架和相关的合成数据集,以探究虚假相关性下的特征学习动态,并发现了几个有趣的现象,如虚假特征的强度和复杂性会减慢核心特征的学习速度,虚假特征和核心特征的学习阶段并不总是可分的,虚假特征即使在核心特征完全学习后也不会被遗忘。
  • 其它亮点
    论文通过理论分析和实验验证,发现了虚假特征对神经网络学习动态的影响,并提出了一些有意义的结论,如重新训练最后一层可以消除虚假相关性,但流行的去偏算法的局限性。实验使用了基于布尔函数分析的合成数据集,并使用了一层ReLU网络学习XOR特征。
  • 相关研究
    最近的相关研究主要集中在去偏算法和虚假相关性的影响上,如《Learning from noisy singly-labeled data》和《On the Effectiveness of Task-Agnostic Data Augmentation for Pretraining》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问