每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
LoRA vs Full Fine-tuning: An Illusion of Equivalence
Reece Shuttleworth ,
Jacob Andreas ,
Antonio Torralba ,
...
2024年10月28日
微调是将预训练大型语言模型适应于下游任务的关键范式。最近,诸如低秩适应(LoRA)等方法已被证明在各种任务中,通过大幅减少可训练参数的数量,能够达到完全微调模型的性能。即使在两种方法学习到同样准确的模型的情况下,它们的学习解决方案是否真的等价?我们通过分析模型权重矩阵的谱特性,研究不同的微调方法如何改变预训练模型。我们发现,完全微调和LoRA产生的权重矩阵的奇异值分解表现出非常不同的结构;此外,在测试超出适应任务分布的数据时,这些微调后的模型表现出不同的泛化行为。更具体地说,首先,我们发现使用LoRA训练的权重矩阵出现了新的、排名较高的奇异向量,我们称之为“入侵维度”。入侵维度在完全微调过程中不会出现。其次,我们发现尽管带有入侵维度的LoRA模型在目标任务上达到了与完全微调相当的性能,但它们作为预训练分布的模型变得更差,并且在顺序适应多个任务时表现得不够稳健。较高秩的、秩稳定的LoRA模型在执行相同任务时,即使性能与较低秩的LoRA模型相当,也更接近完全微调。这些结果表明,即使在微调分布上表现相同,使用LoRA和完全微调更新的模型访问了参数空间的不同部分。最后,我们探讨了为什么入侵维度会出现在LoRA微调模型中,为什么它们是不希望存在的,以及如何最小化它们的影响。
1532
热度
PDF
解读
A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness
Qi He ,
Yao Ma ,
Fali Wang ,
...
2024年11月04日
大型语言模型(LLM)在文本生成、问答和推理方面展现了突现能力,促进了各种任务和领域的应用。尽管它们在各种任务中表现出色,但像LaPM 540B和Llama-3.1 405B这样的LLM由于参数量庞大和计算需求高,通常需要使用云API,这引发了隐私问题,限制了边缘设备上的实时应用,并增加了微调成本。此外,LLM在医疗和法律等专业领域往往表现不佳,因为缺乏足够的领域特定知识,需要专门的模型。因此,小型语言模型(SLM)因其低推理延迟、成本效益、开发高效以及易于定制和适应而越来越受到青睐。这些模型特别适合资源受限的环境和领域知识获取,解决了LLM的挑战,并证明在需要本地数据处理以保护隐私、最小化推理延迟以提高效率以及通过轻量级微调获取领域知识的应用中非常理想。对SLM的需求不断增加,推动了广泛的研究和开发。然而,关于定义、获取、应用、增强和可靠性等方面的问题,尚缺乏全面的调查,促使我们对这些问题进行详细的调查。SLM的定义差异很大,因此为了标准化,我们建议根据其执行特定任务的能力和适用于资源受限环境的适宜性来定义SLM,设定基于突现能力的最小规模和资源约束下可维持的最大规模的界限。对于其他方面,我们提供了一个相关模型/方法的分类,并为每个类别开发了一般的框架,以有效增强和利用SLM。
1294
热度
PDF
解读
Evaluation data contamination in LLMs: how do we measure it and (when) does it matter?
Aaditya K. Singh ,
Muhammed Yusuf Kocyigit ,
Andrew Poulton ,
...
2024年11月06日
妨碍基准分数的解释,评估数据污染已成为大型语言模型(LLM)评估中的一个日益增长的担忧,并且研究其影响已成为一个活跃的研究领域。虽然评估数据污染直观上容易理解,但精确定义哪些样本应被视为污染以及其如何影响基准分数却出乎意料地困难。我们认为,这些问题应该一起解决,并且可以通过检查模型是否从标记为污染的示例中受益来评估污染指标。我们提出了一种新的分析方法,称为ConTAM,并通过大规模调查现有的和新颖的基于n-gram的污染指标,涵盖了13个基准测试和来自两个不同家族的7个模型,展示了ConTAM可以更好地理解评估数据污染及其影响。我们发现,污染的影响可能比最近发布的LLM报告中所描述的要大得多,并且在不同规模上对模型的影响也不同。我们还发现,仅考虑最长的污染子字符串比考虑所有污染子字符串的联合提供更好的信号,并且进行模型和基准特定的阈值分析大大提高了结果的特异性。最后,我们探讨了超参数选择的影响,发现在其他因素中,使用更大的n值和忽略在预训练数据中出现频率较低的匹配会导致许多假阴性。通过ConTAM,我们提供了一种方法,将评估数据污染指标基于下游效果进行实证验证。通过我们的探索,我们揭示了评估数据污染如何影响LLM,并提供了在进行污染分析时重要的考虑因素的见解。我们在论文的结尾部分详细讨论了这些内容,并为未来的工作提供了具体的建议。
327
热度
PDF
解读