- 简介大型语言模型通常需要进行微调以与人类偏好相一致。然而,微调大型语言模型可能具有挑战性。在这项工作中,我们引入了“弱到强搜索”方法,将大型语言模型的对齐视为测试时的贪心搜索,以最大化从冻结的大模型中采样时小模型微调和未微调之间的对数似然差异。该方法既可作为一种计算有效的模型升级策略,避免直接调整大型模型,又可作为弱到强泛化的实例,通过弱测试时引导增强强模型。从实证角度来看,我们展示了弱到强搜索在不同任务中的灵活性。在受控情感生成和摘要任务中,我们使用微调和未微调的$\texttt{gpt2}$有效地提高了大型模型的对齐度,而无需进行额外的训练。关键是,在更难的指令遵循基准测试AlpacaEval 2.0中,我们展示了重用现成的小模型对(例如$\texttt{zephyr-7b-beta}$及其未微调版本)可以显著提高白盒和黑盒大型模型对$\texttt{gpt-4-turbo}$的长度控制胜率(例如$\texttt{Llama-3-70B-Instruct}$从$34.4$提高到$37.9$,$\texttt{gpt-3.5-turbo-instruct}$从$16.0$提高到$20.1$),尽管小模型的胜率约为$10.0$。
- 图表
- 解决问题本文介绍了一种名为weak-to-strong search的方法,旨在通过在大型预训练语言模型中进行测试时贪心搜索来最大化小型调整和未调整模型之间的对数似然差异,从而实现大型语言模型的对齐,提高模型的泛化能力。该方法在不同任务上展现了灵活性,包括控制情感生成、文本摘要和指令遵循等任务。在指令遵循任务中,使用小型模型对大型模型进行弱化指导,能够显著提高大型模型的胜率。
- 关键思路本文提出了一种通过测试时贪心搜索来对齐大型预训练语言模型的方法,避免了直接调整大型模型的计算成本,同时提高了模型的泛化能力。
- 其它亮点本文的亮点包括使用weak-to-strong search方法对大型预训练语言模型进行对齐,在控制情感生成、文本摘要和指令遵循等任务中展现了灵活性,并在指令遵循任务中通过弱化指导显著提高了大型模型的胜率。实验使用了多个数据集,并提供了开源代码。
- 相关研究包括使用对抗训练来提高模型的泛化能力,以及使用小型模型对大型模型进行调整的方法。其中,使用小型模型对大型模型进行调整的方法包括Knowledge Distillation和Model Compression等。
沙发等你来抢
去评论
评论
沙发等你来抢