Neural Networks Learn Statistics of Increasing Complexity

2024年02月06日
  • 简介
    这篇论文阐述了分布简单性偏差(DSB)的理论,即神经网络在学习高阶相关性之前,首先学习数据分布的低阶矩。作者通过实验证明了DSB的可信度,即网络在训练早期学习最大熵分布时,只要其低阶统计量与训练集相匹配,就能够自动学习良好的表现,但在训练后期会失去这种能力。此外,作者还将DSB扩展到离散域,通过证明标记n-gram频率与嵌入向量的矩之间的等价性,并在LLMs中发现了该偏差的实证证据。最后,作者使用最优传输方法来编辑一个类别的低阶统计量以匹配另一个类别,并表明早期训练的网络会将编辑后的样本视为来自目标类别。该论文提供的代码可在https://github.com/EleutherAI/features-across-time找到。
  • 图表
  • 解决问题
    论文旨在验证分布简单性偏差(DSB)理论,即神经网络在学习高阶相关性之前,先学习数据分布的低阶矩。同时,论文还试图将DSB扩展到离散领域,并通过编辑数据分布的低阶统计量来观察网络的学习行为。
  • 关键思路
    论文通过实验证明了DSB理论的存在,并将其扩展到离散领域。此外,论文还提出了一种编辑数据分布低阶统计量的方法来研究网络的学习行为。
  • 其它亮点
    论文使用了最大熵分布来验证DSB理论,并通过实验证明了网络在训练早期可以很好地适应低阶统计量匹配的最大熵分布,但在训练后期会失去这种能力。此外,论文还将DSB理论扩展到了离散领域,并通过实验证明了该偏差在LLMs中的存在。论文还提出了一种编辑数据分布低阶统计量的方法,并通过实验证明了网络在训练早期可以将编辑后的样本视为目标类别的样本。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)《On the importance of single directions for generalization》;2)《Understanding deep learning requires rethinking generalization》;3)《The implicit bias of gradient descent on separable data》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论