Understanding LLMs Requires More Than Statistical Generalization

简介

过去十年间，深度学习理论研究蓬勃发展，试图回答“为什么深度学习具有泛化能力”的问题。这一进展源于视角的强力转换：对于过度参数化模型在插值区间内的研究。本文认为，由于一些LLMs的良好性质并非好的统计泛化的结果，需要另外的理论解释，因此需要进行另一种视角的转换。我们的核心论点基于这样一个观察：AR概率模型本质上是不可识别的，即模型之间的KL散度为零或接近零，因此在测试损失相等的情况下，这些模型可能表现出截然不同的行为。我们通过数学例子和实证观察支持我们的立场，阐明了不可识别性为什么具有实际意义，通过三个案例研究说明了这一点：（1）零样本规则外推的不可识别性；（2）上下文学习的近似不可识别性；（3）可微调性的不可识别性。我们回顾了关注LLM相关泛化度量、可转移性和归纳偏差的有前途的研究方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文探讨深度学习为什么泛化能力强的问题，并指出一些理想的特性不是好的统计泛化的结果，需要单独的理论解释。
关键思路

论文从AR概率模型的不可识别性出发，说明了等效测试损失的模型可能表现出截然不同的行为，这一点对于零样本规则外推、上下文学习和微调能力都有实际意义。
其它亮点

论文提出了一些有趣的研究方向，包括LLM相关的泛化度量、可迁移性和归纳偏差。通过三个案例研究，论文说明了非可识别性对实际问题的重要性。
相关研究

最近的相关研究包括《Understanding deep learning requires rethinking generalization》、《On the Spectral Bias of Neural Networks》等。

Understanding LLMs Requires More Than Statistical Generalization

提问交流

提问交流