Quantifying the Capabilities of LLMs across Scale and Precision

简介

规模通常被认为是导致LLM性能提高的因素之一，从而产生了具有十亿和万亿参数的模型。这种大型模型的限制之一是高计算要求，限制了它们在资源受限场景下的使用、部署和调试。绕过这些限制常用的两种方法是使用LLM的较小版本（例如使用Llama 7B代替Llama 70B），并通过使用量化来降低内存需求。虽然这些方法有效地解决了资源限制的问题，但它们对模型性能的影响需要进行彻底的评估。在这项研究中，我们进行了全面的评估，以调查模型规模和量化对性能的影响。我们对两个主要的开源指令模型进行了实验，其参数范围从70亿到700亿。我们在各种任务（包括自然语言理解、推理、虚假信息检测和幻觉）上进行了广泛的零-shot实验，发现较大的模型通常优于它们的较小版本，这表明规模仍然是提高性能的重要因素。我们发现，较大的模型对精度降低表现出了极高的韧性，并且即使在4位量化的情况下也能保持高精度，适用于许多任务，并且在类似内存要求的情况下比使用较小的模型具有更好的解决方案。
图表
解决问题

研究LLMs的规模和量化对性能的影响，以解决大规模模型的高计算资源需求限制其在资源受限场景下的使用和部署的问题。
关键思路

通过实验发现，规模仍然是提高性能的重要因素，大模型通常优于小模型，同时大模型对精度降低具有较强的鲁棒性。
其它亮点

实验使用了两个开源指令模型系列，涵盖自然语言理解、推理、虚假信息检测和幻觉等多个任务，发现大模型通常优于小模型，同时大模型对精度降低具有较强的鲁棒性。
相关研究

相关研究包括：《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》等。

Quantifying the Capabilities of LLMs across Scale and Precision

评论