- 简介神经缩放定律描述了随着模型规模的增大,模型性能如何提高。受实证观察启发,我们引入了神经缩放的资源模型。任务通常是复合的,因此可以分解为许多子任务,这些子任务竞争资源(由分配给子任务的神经元数量衡量)。在玩具问题上,我们经验证实:(1)子任务的损失与其分配的神经元成反比。(2)当组合任务中存在多个子任务时,每个子任务获取的资源随着模型变大而均匀增长,保持获取资源的比率不变。我们假设这些发现通常是正确的,并建立了一个模型来预测一般复合任务的神经缩放定律,该模型成功复制了arXiv:2203.15556中报告的Chinchilla模型的神经缩放定律。我们相信本文中使用的资源概念将是表征和诊断神经网络的有用工具。
- 图表
- 解决问题本文旨在探讨神经网络规模扩大时模型性能的提升情况,提出了一种资源模型来解释神经网络规模的影响。
- 关键思路通过将任务分解为多个子任务,使用神经元数量来衡量子任务所需的资源,并发现子任务的损失与其分配的神经元数量成反比。同时,当一个复合任务包含多个子任务时,每个子任务所获得的资源会随着模型规模的扩大而均匀增长,保持资源获取比例不变。建立了一个模型来预测神经网络在不同复合任务下的规模扩大对模型性能的影响。
- 其它亮点本文通过实验验证了资源模型的有效性,并成功复现了Chinchilla模型的神经网络规模扩大的影响。值得注意的是,本文提出的资源模型可以用于表征和诊断神经网络。
- 近期相关研究包括《On the Relationship between Self-Attention and Convolutional Layers》、《Understanding deep learning requires rethinking generalization》等。
沙发等你来抢
去评论
评论
沙发等你来抢