Weak-to-Strong Extrapolation Expedites Alignment

简介

虽然大型语言模型（LLMs）的能力理论上随着数据和计算能力的增加而提高，但在现实中它们不可避免地受到有限的资源的限制。假设我们手头有一个适度训练的LLM（例如，已经训练成与人类偏好相一致的模型），我们能否进一步利用它的潜力并廉价地获得一个更强大的模型？本文提出了一种简单的方法，称为ExPO，以增强LLMs与人类偏好的一致性。ExPO假设中度一致的模型可以插值在一个不太一致（较弱）的模型（例如，最初的SFT模型）和一个更一致（更强）的模型之间，从而通过推断出前两个相对较弱模型的权重来直接获得这个更强大的模型。在AlpacaEval 2.0基准测试中，我们展示了ExPO如何将使用较少偏好数据（例如10％或20％）训练的模型推向甚至超越完全训练的模型，而无需进行任何额外的训练。此外，ExPO还显着改善了现成的DPO/RLHF模型，并在7B到70B的模型规模上展现了相当的可扩展性。我们的工作证明了模型外推在利用LLMs能力方面的有效性，表明这是一个值得未来探索的有前途的方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

ExPO提出了一种简单的方法来提高大型语言模型（LLMs）与人类喜好的一致性，以便在资源有限的情况下廉价地获得更强的模型。论文试图解决如何通过模型外推来提高LLMs的性能。
关键思路

ExPO假设可以在较差的模型和较好的模型之间插值出一个中等一致性的模型，从而通过对前两个相对较弱模型的权重进行外推，直接获得更强的模型。这种模型外推的思路是论文的关键。
其它亮点

论文在AlpacaEval 2.0基准测试上展示了ExPO的有效性，表明使用更少的喜好数据（例如10％或20％）训练的模型可以达到甚至超过完全训练的模型，而无需任何额外的训练。此外，ExPO还显著改进了现成的DPO / RLHF模型，并在7B到70B的模型大小上展现了良好的可扩展性。
相关研究

最近的相关研究包括使用更大的模型、更多的数据和更好的训练方法来提高LLMs性能，如GPT-3、T5等。

Weak-to-Strong Extrapolation Expedites Alignment

提问交流

提问交流